下面是小编为大家整理的基于Python实现新冠疫情数据挖掘案例分析(全文完整),供大家参考。
Hot
Spot
热点基于 Python 实现的新冠
疫情数据挖掘案例分析闻思源王睿刘庆旺【 摘要 】
本案例以数据挖掘过程中的数据获取 、 数据清洗 、 数据可视化 、 数据挖掘典
型算法应用 、 挖掘结果分析作为教学主线条 , 以从 2020 年初以来开始公开发布的国内外
新冠疫情实时更新数据作为数据基础 , 以 Python3.7 及 Request 、 Numpy 、 Pandas 、 Matplotlib 、
Pyecharts 、 Scikit-learn 等数据处理与分析相关常用包库作为技术实现工具,实现数据挖掘
的基本过程 。
通过本案例的社会性分析 , 可以使学生建立数据联想和析因能力基础 , 增强
学生用数据挖掘技术解决管理学问题的能力 。【 关键词 】
Python
; 新冠疫情;数据挖掘;案例分析0 绪言数据挖掘是指从大量数据中揭示出隐含的 、 先前未知的并有潜在价值的信息的非平
凡过程 。
在当前伴随信息革命而产生数据爆炸的情况下 , 数据挖掘已成为一种非常重要
的决策支持方法叫数据挖掘主要基于数据库 、 统计学 、 可视化技术 、 智能自学习等数学方
法 , 高度自动化地分析数据,做出归纳性的推理和挖掘潜在模式 , 从而帮助决策者做出正
确的判断 , 数据挖掘过程由以下三个阶段组成:数据准备;数据挖掘 ; 结果表达和解释 。在 《 数据挖掘技术 》 课程的教学过程中 , 缺乏具有时效性强的足量数据 、 学生对于数
据挖掘理论与实践相结合方法论难以建立起系统化概念 , 对数据挖掘结果难以有效地进
行深入析因 , 这是教学过程中面临的主要难点 。1 案例背景作者单位 :
闻思源 , 山东财经大学
管理科学与工程学院王睿 , 山东财经大学管理科学与工程学院刘庆旺 , 山东咼速舜通路桥工程有限公司2019 年底以来 , 世界各地普遍爆发了新型冠状肺炎疫情 , 波及范围之广 , 损失之大 ,
社会影响之严重,近几百年来前所未有 。
由于信息技术的广泛应用 , 使得此次疫情数据非
常充分地得到了记录 , 并且通过互联网进行公开发布 , 为本课程的教学以及管理科学实
践提供了难得的数据基础 、 技术实现平台和挖掘分析空间 。针对本次疫情 , 各个国家和医疗相关机构都有实时数据发布 , 如 ( 1 )
News
Break 从国
际卫生组织 ( WHO )
、 美国国家健康中心 、 中国疾病预防控制中心等权威发布机构获得并
发布的疫情数据 ; ( 2 )
美国约翰 . 霍普金斯大学的全球疫情数据大屏 ; ( 3 )
中国百度公司根
据国家卫生与健康委员会数据接口发布的疫情地图 。
通过数据探查,从数据权威性 、 获取22
Shanghai
Business12 月刊 2020可行性和数据完备性角度综合考虑 , 决定本案例数据源中
涉及的国外疫情数据采用 News
Break 发布数据 , 国内疫情
数据采用百度疫情地图数据 。2 案例构成要素本案例以从 2020 年初以来开始公开发布的国内外新
冠疫情实时更新数据作为数据基础 , 以 Python3.7 及
Request 、 Numpy 、 Pandas 、 Matplotlib 、 Pyecharts 、 Scikit-learn
等
数据处理与分析相关常用包库作为技术实现工具 , 实现
数据挖掘的基本过程 [ 2-3 本案例的构成要素主要包括以下
内容 :( 1
)
网络数据的爬取 。
以 Request 包和作为数据爬取基
本工具包,调用其方法获得网页源文件 , 由于数据是实时
发布,本案例采用在线爬取 ( 每天定时采集 )
和离线爬取
( 从离线网页源文件中分离 )
两种方式进行源数据获取 。( 2 )
源数据的解析与清洗 。
首先通过 Pandas 包 、
BeautifulSoup 包结合 Python 的字典 、 列表和集合数据操
作 , 从网页源文件中分离出 Json 格式的疫情数据作为原
始数据源 , 然后从其中分离出国内和国外疫情数据项 , 具
体内容包括 :
累积确诊数量 、 每日新增确诊数量 、 疑似数
量 、 重症数量 、 死亡数量 、 累积治愈数量 、 无症状感染数量 、
境外输入确诊数量等 , 国内数据精确到地级市 , 国外数据
中 , 美国精确到州和主要城市 , 其他国家精确到国家 ; 再通
过 Pandas 包中方法对数据进行规范化清洗处理 , 具体包
括:无效值排除 、 缺失 / 空值填充 、 异常值 / 重复值处理 、 更
改格式 、 排序分组等 , 从而得到适合挖掘分析的规范全结
构化数据 。( 3 )
数据基础统计 。
利用 Pandas 包提供的统计学方
法 , 完成均值 、 标准差 、 中位数 、 分位数 、 峰度 、 偏度 、 极值等
统计运算 , 从而对各国家和地区疫情数据基于时间窗口做
基础性统计 ;( 4 )
数据静态可视化 。
利用 Matplotlib 包提供的数据显
示图形化方法 , 利用前述各数据项生成绝对指标 ( 如各地
区感染总数 )
和相对指标 ( 如感染总人数的各地区构成比
例 、 A 地区与 B 地区确诊数量比值等 )
随时间的数值变化
曲线 , 通过随时间的纵向曲线 、 以地区为单位的横向对比
等图形充分从不同角度展现数据基本面 。( 5 )
数据动态可视化 。
利用 Pyecharts 包中提供的地图
数据和相关图形化方法 , 针对前述的各绝对指标和相对指
标,生成时间线轮播多图 、 地区分布图 、 地区热图等 , 从而
动态展示疫情严重程度的变化 、 不同地区的疫情规模和发
展趋势叫( 6 )
实施数据挖掘算法应用 。
利用 Scikit-learn 包中提
供的数据挖掘方法 , 通过回归分析考察疫情规模的相关因
素 , 通过预测分析考察各项指标随时间的发展变化趋势 ,
通过聚类分析考察各地区疫情状况的相似性和不同分
级叫( 7 )
数据分析 。
通过前述各指标的数据统计结果和数
据挖掘结果 , 站在比较性分析的角度 , 分别从效率质量两
个方面分析中国和美国 、 中国和欧洲 、 中国和世界其他国
家和地区在疫情防控方面的差别 , 并深入挖掘不同效果的
社会根源 , 从而在基于客观数据和科学挖掘分析的基础上
建立充分的制度自信 、 文化自信 、 发展自信 。3 小结本案例改变传统案例侧重于算法解释,与现实社会和
经济问题脱节严重的情况 , 通过对疫情数据统计与挖掘结
果的析因分析 , 在培养学生数学算法和技术能力的同时 ,
更加注重数据联系现实 , 增强学生用数据挖掘辅助解决管
理学问题的能力 。【 参考文献 】[ 1 ]
冯伊平 , 费万堂 , 王卓瑜 , 陈磊 , 魏敏 . 基于数据挖掘算法
数据模型实现大数据分析的方法研究 [ J ] . 电子测量技术 ,
2020 ( 03 )
.[ 2 ]
杨梓 , 张□ . 金融数据分析中 Python 语言的运用探究 [ J ] .
大众投资指南 , 2020 ( 10 )
.[ 3 ]
李冬睿 , 杨颖 , 杨善友 , 邱尚明 , 罗拥华 . 基于成果导向的
Python 应用开发课程标准的开发 [ J ] . 信息系统工程 , 2019
( 12 )
.[ 4 ]
张运玉 . 基于 Python 的数据分析的研究 [ J ] . 电脑知识与技
术 , 2019 ( 30 )
.[ 5 ]
郝海妍 , 潘萍 . Python 技术在数据分析中的应用 [ J ] . 电子
技术与软件工程 , 2020 ( 12 )
.23