当前位置:首页 > 专题范文 > 疫情防控 > 基于Python实现新冠疫情数据挖掘案例分析(全文完整)

基于Python实现新冠疫情数据挖掘案例分析(全文完整)

发布时间:2022-08-17 14:20:04 来源:网友投稿

下面是小编为大家整理的基于Python实现新冠疫情数据挖掘案例分析(全文完整),供大家参考。

基于Python实现新冠疫情数据挖掘案例分析(全文完整)

 

 Hot

 Spot

 热点基于 Python 实现的新冠

 疫情数据挖掘案例分析闻思源王睿刘庆旺【 摘要 】

 本案例以数据挖掘过程中的数据获取 、 数据清洗 、 数据可视化 、 数据挖掘典

 型算法应用 、 挖掘结果分析作为教学主线条 , 以从 2020 年初以来开始公开发布的国内外

 新冠疫情实时更新数据作为数据基础 , 以 Python3.7 及 Request 、 Numpy 、 Pandas 、 Matplotlib 、

 Pyecharts 、 Scikit-learn 等数据处理与分析相关常用包库作为技术实现工具,实现数据挖掘

 的基本过程 。

 通过本案例的社会性分析 , 可以使学生建立数据联想和析因能力基础 , 增强

 学生用数据挖掘技术解决管理学问题的能力 。【 关键词 】

 Python

 ; 新冠疫情;数据挖掘;案例分析0 绪言数据挖掘是指从大量数据中揭示出隐含的 、 先前未知的并有潜在价值的信息的非平

 凡过程 。

 在当前伴随信息革命而产生数据爆炸的情况下 , 数据挖掘已成为一种非常重要

 的决策支持方法叫数据挖掘主要基于数据库 、 统计学 、 可视化技术 、 智能自学习等数学方

 法 , 高度自动化地分析数据,做出归纳性的推理和挖掘潜在模式 , 从而帮助决策者做出正

 确的判断 , 数据挖掘过程由以下三个阶段组成:数据准备;数据挖掘 ; 结果表达和解释 。在 《 数据挖掘技术 》 课程的教学过程中 , 缺乏具有时效性强的足量数据 、 学生对于数

 据挖掘理论与实践相结合方法论难以建立起系统化概念 , 对数据挖掘结果难以有效地进

 行深入析因 , 这是教学过程中面临的主要难点 。1 案例背景作者单位 :

 闻思源 , 山东财经大学

 管理科学与工程学院王睿 , 山东财经大学管理科学与工程学院刘庆旺 , 山东咼速舜通路桥工程有限公司2019 年底以来 , 世界各地普遍爆发了新型冠状肺炎疫情 , 波及范围之广 , 损失之大 ,

 社会影响之严重,近几百年来前所未有 。

 由于信息技术的广泛应用 , 使得此次疫情数据非

 常充分地得到了记录 , 并且通过互联网进行公开发布 , 为本课程的教学以及管理科学实

 践提供了难得的数据基础 、 技术实现平台和挖掘分析空间 。针对本次疫情 , 各个国家和医疗相关机构都有实时数据发布 , 如 ( 1 )

 News

 Break 从国

 际卫生组织 ( WHO )

 、 美国国家健康中心 、 中国疾病预防控制中心等权威发布机构获得并

 发布的疫情数据 ; ( 2 )

 美国约翰 . 霍普金斯大学的全球疫情数据大屏 ; ( 3 )

 中国百度公司根

 据国家卫生与健康委员会数据接口发布的疫情地图 。

 通过数据探查,从数据权威性 、 获取22

 Shanghai

 Business12 月刊 2020可行性和数据完备性角度综合考虑 , 决定本案例数据源中

 涉及的国外疫情数据采用 News

 Break 发布数据 , 国内疫情

 数据采用百度疫情地图数据 。2 案例构成要素本案例以从 2020 年初以来开始公开发布的国内外新

 冠疫情实时更新数据作为数据基础 , 以 Python3.7 及

 Request 、 Numpy 、 Pandas 、 Matplotlib 、 Pyecharts 、 Scikit-learn

 等

 数据处理与分析相关常用包库作为技术实现工具 , 实现

 数据挖掘的基本过程 [ 2-3 本案例的构成要素主要包括以下

 内容 :( 1

 )

 网络数据的爬取 。

 以 Request 包和作为数据爬取基

 本工具包,调用其方法获得网页源文件 , 由于数据是实时

 发布,本案例采用在线爬取 ( 每天定时采集 )

 和离线爬取

 ( 从离线网页源文件中分离 )

 两种方式进行源数据获取 。( 2 )

 源数据的解析与清洗 。

 首先通过 Pandas 包 、

 BeautifulSoup 包结合 Python 的字典 、 列表和集合数据操

 作 , 从网页源文件中分离出 Json 格式的疫情数据作为原

 始数据源 , 然后从其中分离出国内和国外疫情数据项 , 具

 体内容包括 :

 累积确诊数量 、 每日新增确诊数量 、 疑似数

 量 、 重症数量 、 死亡数量 、 累积治愈数量 、 无症状感染数量 、

 境外输入确诊数量等 , 国内数据精确到地级市 , 国外数据

 中 , 美国精确到州和主要城市 , 其他国家精确到国家 ; 再通

 过 Pandas 包中方法对数据进行规范化清洗处理 , 具体包

 括:无效值排除 、 缺失 / 空值填充 、 异常值 / 重复值处理 、 更

 改格式 、 排序分组等 , 从而得到适合挖掘分析的规范全结

 构化数据 。( 3 )

 数据基础统计 。

 利用 Pandas 包提供的统计学方

 法 , 完成均值 、 标准差 、 中位数 、 分位数 、 峰度 、 偏度 、 极值等

 统计运算 , 从而对各国家和地区疫情数据基于时间窗口做

 基础性统计 ;( 4 )

 数据静态可视化 。

 利用 Matplotlib 包提供的数据显

 示图形化方法 , 利用前述各数据项生成绝对指标 ( 如各地

 区感染总数 )

 和相对指标 ( 如感染总人数的各地区构成比

 例 、 A 地区与 B 地区确诊数量比值等 )

 随时间的数值变化

 曲线 , 通过随时间的纵向曲线 、 以地区为单位的横向对比

 等图形充分从不同角度展现数据基本面 。( 5 )

 数据动态可视化 。

 利用 Pyecharts 包中提供的地图

 数据和相关图形化方法 , 针对前述的各绝对指标和相对指

 标,生成时间线轮播多图 、 地区分布图 、 地区热图等 , 从而

 动态展示疫情严重程度的变化 、 不同地区的疫情规模和发

 展趋势叫( 6 )

 实施数据挖掘算法应用 。

 利用 Scikit-learn 包中提

 供的数据挖掘方法 , 通过回归分析考察疫情规模的相关因

 素 , 通过预测分析考察各项指标随时间的发展变化趋势 ,

 通过聚类分析考察各地区疫情状况的相似性和不同分

 级叫( 7 )

 数据分析 。

 通过前述各指标的数据统计结果和数

 据挖掘结果 , 站在比较性分析的角度 , 分别从效率质量两

 个方面分析中国和美国 、 中国和欧洲 、 中国和世界其他国

 家和地区在疫情防控方面的差别 , 并深入挖掘不同效果的

 社会根源 , 从而在基于客观数据和科学挖掘分析的基础上

 建立充分的制度自信 、 文化自信 、 发展自信 。3 小结本案例改变传统案例侧重于算法解释,与现实社会和

 经济问题脱节严重的情况 , 通过对疫情数据统计与挖掘结

 果的析因分析 , 在培养学生数学算法和技术能力的同时 ,

 更加注重数据联系现实 , 增强学生用数据挖掘辅助解决管

 理学问题的能力 。【 参考文献 】[ 1 ]

 冯伊平 , 费万堂 , 王卓瑜 , 陈磊 , 魏敏 . 基于数据挖掘算法

 数据模型实现大数据分析的方法研究 [ J ] . 电子测量技术 ,

 2020 ( 03 )

 .[ 2 ]

 杨梓 , 张□ . 金融数据分析中 Python 语言的运用探究 [ J ] .

 大众投资指南 , 2020 ( 10 )

 .[ 3 ]

 李冬睿 , 杨颖 , 杨善友 , 邱尚明 , 罗拥华 . 基于成果导向的

 Python 应用开发课程标准的开发 [ J ] . 信息系统工程 , 2019

 ( 12 )

 .[ 4 ]

 张运玉 . 基于 Python 的数据分析的研究 [ J ] . 电脑知识与技

 术 , 2019 ( 30 )

 .[ 5 ]

 郝海妍 , 潘萍 . Python 技术在数据分析中的应用 [ J ] . 电子

 技术与软件工程 , 2020 ( 12 )

 .23

版权所有:袖书文档网 2002-2024 未经授权禁止复制或建立镜像[袖书文档网]所有资源完全免费共享

Powered by 袖书文档网 © All Rights Reserved.。备案号:鲁ICP备20026461号-1