(贵州师范学院 数学与大数据学院,贵州 贵阳 550018 )
摘要:研究基于大数据的背景下,通过Python爬虫新冠疫情数据和百度迁徙的人口流动数据,建立动态网页,可视化春运期间全国各省流的流入人口规模以及各省疫情情况。借助全国各地区常住人口数、感染人数、流入该地区的人口百分比,以及流入规模指数,利用多元回归模型分析人口流动对新冠疫情的影响。结果发现,人口流动与新冠疫情发展间存在较强的相关性,对各地区产生显著影响的人口流动可能更多来源于除湖北省外的其他省份的二次传播,各地区均有对其感染人数存在显著影响的省份。
关键词:COVID-19;人口流动; 地区分布;回归模型
1引言
2019年12月底,武汉爆发了新型冠状病毒(COVID-19)肺炎疫情。由于缺乏对该病毒的传播途径和临床特征的了解,疫情发现初期并未采取良好的防控措施。又正值春运时期,大规模的人口流动使得疫情在短期内扩散到全国。随后,武汉市于 2020 年 1 月 23 日“封城”,但民众得到“封城”消息早于实施封城 10 小时,舆论和疫情的发展使得武汉有较大规模的人口向“外”流动,造成了疫情在全国的进一步扩散。根据国家卫健委发布的新冠疫情情 ,截至2020年3月15日,全国累计确诊已有80860例[1]。1
1.1研究方法
本研究采用数据可视化与建立多元回归模型的方式,根据新冠疫情的实际数据,反应人口流动对流入地区新增确诊的影响。相较于以往分析方式,有效直观的展示疫情发展状况,明确新增确诊与地区流入人口的关系,在分析过程和数学研究方法上有一定的创新。
1.2研究内容
石光在其研究中指出人口流动是新型冠状病毒肺炎疫情传播的主要渠道[2]。李建军在其研究中指出人口流动加速了疫情传播[3]。鉴于此本研究从人口流动的视角分析感染者的增长趋势,利用python爬取丁香医生公布的新冠疫情信息和百度迁徙中的全国人口流动数据,并从第七次全国人口普查公报中得到各省份常住人口数量,对数据进行清洗并处理,根据处理完成的数据,分析人口流动与新增确诊间的关系。
通过数据可视化的方式直观的观测到全国人口流动与各地新冠肺炎感染者的变化。建立多元回归模型分析人口流动对新冠疫情的影响,进而有效促进新型冠状肺炎的基础性研究,为疫情防控研究提供理论依据,直观的了解省外输入人口对输入地区疫情发病率的影响程度。从而贯彻落实习近平总书记关于疫情防控工作的重要指示,充分挖掘新型冠状肺炎病例的流行病学相关信息,以加强疫情防控工作,有效控制疫情的传播。
2数据分析与模型构建
2.1可视化分析
为了更加直观的了解疫情发展情况及人口流动情况,我们建立了可视化平台(http://82.156.114.181:8081/bigdata),截取其中的贵州疫情形势折线图,如图1所示:
图 1 贵州疫情形势折线图
由图可知,贵州省疫情高峰期位于2020年1月23日至3月15日。由于贵州省卫健委从2020年1月23日开始发布疫情通报,而贵州省现存确诊病例数在2020年3月15日基本平稳,故我们将研究时间定在该时段,并对相关数据进行建模。
2.2模型构建
为了更好的刻画人口流入量与流入人口感染的可能性,我们通过现有数据建立了一个新的自变量——流入感染数。以各省份的现存确诊人数除以其常住人口得到感染率,将各省份感染率与人口流入百分比以及迁入指数相乘得到。
由于新型冠状病毒肺炎存在潜伏期,从人口流入该省到影响该省新增确诊病例存在时间差,故考虑用各省累计前N天的流入该省份的流入感染数,解释流入省份累计前N天的新增确诊病例,具体方法采用以N天为步长的滑动求和。
因部分省份2020年1月29日前的数据存在缺失,故采用各省2020年1月29日到3月15日的数据,对其进行上述处理后,采用min-max标准化数据消除数据的量纲不同所带来的影响。观察归一化后的数据,发现后期很多数据为0,故统一选择前22条数据进行最后的建立稳健的多元回归模型。
2.2.1七大地区多元回归模型
按全国7个行政区分别建立模型,对应地区的自变量与被解释变量,为隶属该地区省份的对应变量之和。对min-max标准化后整列均小于0.01的列进行剔除后,对回归结果不显著的变量,以及符号不合乎实际意义的变量进行剔除。从每个地区累计天数为1—14的14个模型中,选取拟合优度最好的,得到最终结果如表1所示(地区名称后的数值为累计天数N)。
表1 七大地区多元回归模型分析表
| 西南13 | 华北13 | 东北13 | 华东14 | 华中14 | 华南14 | 西北14 |
VARIABLES | 新增确诊 | 新增确诊 | 新增确诊 | 新增确诊 | 新增确诊 | 新增确诊 | 新增确诊 |
上海市 | 15.863*** | 4.204*** | | | | | 5.236*** |
| (0.183) | (0.376) | | | | | (0.164) |
黑龙江省 | | 7.007*** | | | | | |
| | (0.856) | | | | | |
山东省 | | 0.282*** | 4.250*** | | | | |
| | (0.067) | (1.236) | | | | |
湖北省 | 0.106*** | | | | | | 0.419*** |
| (0.023) | | | | | | (0.084) |
重庆市 | | | 37.980*** | | | | |
| | | (1.956) | | | | |
海南省 | | | 50.676*** | | | | |
| | | (6.081) | | | | |
四川省 | | | | 7.136*** | | 4.580*** | 6.137*** |
| | | | (0.425) | | (0.398) | (0.654) |
辽宁省 | | | | 120.261*** | | | |
| | | | (2.867) | | | |
安徽省 | | | | | 13.710*** | 4.831** | |
| | | | | (3.203) | (2.194) | |
广东省 | | | | | 1.575*** | | |
| | | | | (0.316) | | |
北京市 | | | | | | 3.294*** | |
| | | | | | (0.536) | |
Constant | -0.197*** | -0.630*** | -2.398*** | -0.761*** | -2.398*** | -1.341*** | -1.211*** |
| (0.017) | (0.065) | (0.415) | (0.017) | (0.212) | (0.176) | (0.131) |
Observations | 22 | 22 | 22 | 22 | 22 | 22 | 22 |
R-squared | 0.997 | 0.998 | 0.993 | 0.997 | 0.928 | 0.994 | 0.998 |
Robust standard errors in parentheses;*** p<0.01, ** p<0.05, * p<0.1 |
由表1可知,七个模型均通过显著性检验,除华中地区作为疫情爆发中心,模型拟合优度较小以外,其他地区拟合优度均在99%以上。进一步分析得到影响七个地区新增确诊的主要省份及其影响程度如下:
西南:上海、湖北的流入感染数对西南新增确诊有显著正向影响。其中上海影响最大。
华北:上海、黑龙江、山东的流入感染数对华北新增确诊有显著正向影响。其中黑龙江影响最大。
东北:山东、重庆、海南的流入感染数对华中新增确诊有显著正向影响。其中海南影响最大。
华东:四川、辽宁的流入感染数对华东新增确诊有显著正向影响。其中辽宁影响最大。
华中:安徽、广东的流入感染数对华中新增确诊有显著正向影响。其中安徽影响最大。
华南:四川、安徽、北京的流入感染数对华南新增确诊有显著正向影响。其中安徽影响最大。
西北:上海、湖北、四川的流入感染数对西北新增确诊有显著正向影响。其中四川影响最大。
综上所述,对各地区产生显著影响的人口流动可能更多来源于其他省份的二次传播,而并非直接来源于湖北省。
2.2.2贵州省多元回归模型
对贵州省以同样的方式建立稳健的多元回归模型,选取区累计天数为1—14的14个模型中拟合优度最高的,得到结果如表2所示。
表2 累计14天贵州省回归分析表
VARIABLES | 新增确诊 |
上海市 | 29.086*** |
| (1.331) |
广东省 | 0.313*** |
| (0.103) |
Constant | -0.394*** |
| (0.066) |
Observations | 22 |
R-squared | 0.997 |
Robust standard errors in parentheses;*** p<0.01, ** p<0.05, * p<0.1 |
该模型 ,通过显著性检验,人口流动对贵州省疫情存在显著正向影响。由表2可知, ,贵州省新增确诊人数有99.7%由表2中各省流入感染数所决定,说明贵州省新增确诊与流入感染数密切相关。其中上海和广东的流入感染数对贵州省新增确诊有显著正向影响,其中上海市的影响最大。
3结论
人口流动与新冠疫情发展间具有较强的相关性,例如:河北再次爆发疫情时,对人口流动采取如下防控措施:高风险(包括按照高风险管理)地区或近14天内有高风险地区旅居史的人员不外出;中风险地区或近14天内有中风险地区旅居史的人员原则上不外出,出行须经当地疫情防控机构批准,低风险县(市、区)人员省际、市际出行,须持7日内有效新冠病毒核酸检测阴性结果;符合规定出行条件的离省人员,做好个人健康监测。返乡的人群,在返乡的第7天和第14天分别做1次核酸检测[4]。严格对高中风险地区进行封城管理,使得突然爆发的疫情在短时间内得到控制。
结合研究结果说明疫情传播与人口流动的关系密切,人口流动显著正向影响了疫情的新增确诊,且大部分来源于湖北省以外省份的二次传播。要想控制疫情的传播,就应控制人口流入量,各地区均存在对其新增确诊影响显著的省份,可对其重点关注。当然人口流动也只是疫情传播的影响因素之一,想要得到强有力的疫情防控,必须每一位公民都要高强度的重视起来,加强自己的卫生安全和健康安全。
参考文献
中华人民共和国国家卫生健康委员会卫生应急办公室.新型冠状病毒肺炎疫情防控[EB/OL].(2020-03-15)[2020-03-15].
石光.春节人口流动对新冠肺炎疫情的影响——基于互联网大数据的视角[J].产业经济评论,2020(02):24-36.
李建军,何山.人口流动、信息传播效率与疫情防控——基于新型冠状肺炎(COVID-19)的证据[J].中央财经大学学报,2020(04):116-128.
新华社.石家庄市政府发布出入石家庄最新政策.https://baijiahao.baidu.com/
s?id=1691127258187272181&wfr=spider&for=pc
基金项目:贵州师范学院2020年度大学生科研项目(2020DXS068);贵州省科技计划项目:黔科和支撑[2020]4Y167号;贵州师范学院一流大学建设项目([2019]35);贵州师范学院博士基金项目(2018BSO01)