基于Python实现新冠疫情数据挖掘案例分析（全文完整）

发布时间:2022-08-17 14:20:04 来源:网友投稿

下面是小编为大家整理的基于Python实现新冠疫情数据挖掘案例分析（全文完整）,供大家参考。

　Hot

　Spot

　热点基于 Python 实现的新冠

　疫情数据挖掘案例分析闻思源王睿刘庆旺【摘要】

　本案例以数据挖掘过程中的数据获取、数据清洗、数据可视化、数据挖掘典

　型算法应用、挖掘结果分析作为教学主线条，以从 2020 年初以来开始公开发布的国内外

　新冠疫情实时更新数据作为数据基础，以 Python3.7 及 Request 、 Numpy 、 Pandas 、 Matplotlib 、

　Pyecharts 、 Scikit-learn 等数据处理与分析相关常用包库作为技术实现工具,实现数据挖掘

　的基本过程。

　通过本案例的社会性分析，可以使学生建立数据联想和析因能力基础，增强

　学生用数据挖掘技术解决管理学问题的能力。【关键词】

　Python

　；新冠疫情;数据挖掘;案例分析0 绪言数据挖掘是指从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平

　凡过程。

　在当前伴随信息革命而产生数据爆炸的情况下，数据挖掘已成为一种非常重要

　的决策支持方法叫数据挖掘主要基于数据库、统计学、可视化技术、智能自学习等数学方

　法，高度自动化地分析数据,做出归纳性的推理和挖掘潜在模式，从而帮助决策者做出正

　确的判断，数据挖掘过程由以下三个阶段组成:数据准备;数据挖掘；结果表达和解释。在《数据挖掘技术》课程的教学过程中，缺乏具有时效性强的足量数据、学生对于数

　据挖掘理论与实践相结合方法论难以建立起系统化概念，对数据挖掘结果难以有效地进

　行深入析因，这是教学过程中面临的主要难点。1 案例背景作者单位：

　闻思源 , 山东财经大学

　管理科学与工程学院王睿，山东财经大学管理科学与工程学院刘庆旺 , 山东咼速舜通路桥工程有限公司2019 年底以来，世界各地普遍爆发了新型冠状肺炎疫情，波及范围之广，损失之大，

　社会影响之严重,近几百年来前所未有。

　由于信息技术的广泛应用，使得此次疫情数据非

　常充分地得到了记录，并且通过互联网进行公开发布，为本课程的教学以及管理科学实

　践提供了难得的数据基础、技术实现平台和挖掘分析空间。针对本次疫情，各个国家和医疗相关机构都有实时数据发布，如（ 1 ）

　News

　Break 从国

　际卫生组织（ WHO ）

　、美国国家健康中心、中国疾病预防控制中心等权威发布机构获得并

　发布的疫情数据；（ 2 ）

　美国约翰 . 霍普金斯大学的全球疫情数据大屏 ; （ 3 ）

　中国百度公司根

　据国家卫生与健康委员会数据接口发布的疫情地图。

　通过数据探查,从数据权威性、获取22

　Shanghai

　Business12 月刊 2020可行性和数据完备性角度综合考虑，决定本案例数据源中

　涉及的国外疫情数据采用 News

　Break 发布数据，国内疫情

　数据采用百度疫情地图数据。2 案例构成要素本案例以从 2020 年初以来开始公开发布的国内外新

　冠疫情实时更新数据作为数据基础，以 Python3.7 及

　Request 、 Numpy 、 Pandas 、 Matplotlib 、 Pyecharts 、 Scikit-learn

　等

　数据处理与分析相关常用包库作为技术实现工具，实现

　数据挖掘的基本过程［ 2-3 本案例的构成要素主要包括以下

　内容：（ 1

　）

　网络数据的爬取。

　以 Request 包和作为数据爬取基

　本工具包,调用其方法获得网页源文件，由于数据是实时

　发布,本案例采用在线爬取（每天定时采集）

　和离线爬取

　（从离线网页源文件中分离）

　两种方式进行源数据获取。（ 2 ）

　源数据的解析与清洗。

　首先通过 Pandas 包、

　BeautifulSoup 包结合 Python 的字典、列表和集合数据操

　作，从网页源文件中分离出 Json 格式的疫情数据作为原

　始数据源，然后从其中分离出国内和国外疫情数据项，具

　体内容包括：

　累积确诊数量、每日新增确诊数量、疑似数

　量、重症数量、死亡数量、累积治愈数量、无症状感染数量、

　境外输入确诊数量等，国内数据精确到地级市，国外数据

　中，美国精确到州和主要城市，其他国家精确到国家；再通

　过 Pandas 包中方法对数据进行规范化清洗处理，具体包

　括:无效值排除、缺失 / 空值填充、异常值 / 重复值处理、更

　改格式、排序分组等，从而得到适合挖掘分析的规范全结

　构化数据。（ 3 ）

　数据基础统计。

　利用 Pandas 包提供的统计学方

　法，完成均值、标准差、中位数、分位数、峰度、偏度、极值等

　统计运算，从而对各国家和地区疫情数据基于时间窗口做

　基础性统计；（ 4 ）

　数据静态可视化。

　利用 Matplotlib 包提供的数据显

　示图形化方法，利用前述各数据项生成绝对指标（如各地

　区感染总数）

　和相对指标（如感染总人数的各地区构成比

　例、 A 地区与 B 地区确诊数量比值等）

　随时间的数值变化

　曲线，通过随时间的纵向曲线、以地区为单位的横向对比

　等图形充分从不同角度展现数据基本面。（ 5 ）

　数据动态可视化。

　利用 Pyecharts 包中提供的地图

　数据和相关图形化方法，针对前述的各绝对指标和相对指

　标,生成时间线轮播多图、地区分布图、地区热图等，从而

　动态展示疫情严重程度的变化、不同地区的疫情规模和发

　展趋势叫（ 6 ）

　实施数据挖掘算法应用。

　利用 Scikit-learn 包中提

　供的数据挖掘方法，通过回归分析考察疫情规模的相关因

　素，通过预测分析考察各项指标随时间的发展变化趋势，

　通过聚类分析考察各地区疫情状况的相似性和不同分

　级叫（ 7 ）

　数据分析。

　通过前述各指标的数据统计结果和数

　据挖掘结果，站在比较性分析的角度，分别从效率质量两

　个方面分析中国和美国、中国和欧洲、中国和世界其他国

　家和地区在疫情防控方面的差别，并深入挖掘不同效果的

　社会根源，从而在基于客观数据和科学挖掘分析的基础上

　建立充分的制度自信、文化自信、发展自信。3 小结本案例改变传统案例侧重于算法解释,与现实社会和

　经济问题脱节严重的情况，通过对疫情数据统计与挖掘结

　果的析因分析，在培养学生数学算法和技术能力的同时，

　更加注重数据联系现实，增强学生用数据挖掘辅助解决管

　理学问题的能力。【参考文献】［ 1 ］

　冯伊平，费万堂，王卓瑜，陈磊，魏敏 . 基于数据挖掘算法

　数据模型实现大数据分析的方法研究［ J ］ . 电子测量技术，

　2020 （ 03 ）

　.［ 2 ］

　杨梓，张□ . 金融数据分析中 Python 语言的运用探究［ J ］ .

　大众投资指南， 2020 （ 10 ）

　.［ 3 ］

　李冬睿，杨颖，杨善友，邱尚明，罗拥华 . 基于成果导向的

　Python 应用开发课程标准的开发［ J ］ . 信息系统工程， 2019

　（ 12 ）

　.［ 4 ］

　张运玉 . 基于 Python 的数据分析的研究［ J ］ . 电脑知识与技

　术 , 2019 （ 30 ）

　.［ 5 ］

　郝海妍，潘萍 . Python 技术在数据分析中的应用［ J ］ . 电子

　技术与软件工程， 2020 （ 12 ）

　.23