当前位置:首页 > 专题范文 > 疫情防控 > 基于文本分析新冠疫情数据统计方法研究,——以哈尔滨疫情数据为例(范文推荐)

基于文本分析新冠疫情数据统计方法研究,——以哈尔滨疫情数据为例(范文推荐)

发布时间:2022-09-04 17:35:04 来源:网友投稿

下面是小编为大家整理的基于文本分析新冠疫情数据统计方法研究,——以哈尔滨疫情数据为例(范文推荐),供大家参考。

基于文本分析新冠疫情数据统计方法研究,——以哈尔滨疫情数据为例(范文推荐)

 

 基于文本分析的新冠疫情数据统计方法研究――以哈尔滨疫情数据为例申 请 人 : 孙晶学 号 : 2190945培养单位 : 数学科学学院学科专业 : 应用统计研究方向 : 大数据分析指导教师 : 王楠 副教授完成日期 : 2021 年 5 月 20 日

 中文摘要中 文 摘 要随着新冠肺炎疫情的不断发展,可用于我们对其做统计分析的信息也越来越多,确诊病例轨迹信息作为可研究的文本信息的主要内容,是我们可以进行文本挖掘与探索的方向,本文以哈尔滨地区为例,通过统计研究方法对哈尔滨地区自疫情以来截至 2020 年 6 月份两次疫情的确诊病例以及无症状感染者的行踪轨迹进行聚类分析,通过对病例轨迹进行文本聚类的研究方法,帮助本地区在追踪与新增确诊病例存在轨迹重叠的现有病例及疑似病例上提供帮助,试图在病毒溯源和迅速锁定疑似病例方面提供科学方法。本文采用基于向量空间模型(Vector Space Model,VSM)及 k-means 算法的文本聚类方法,其中针对轨迹分词后得到的特征向量空间维数过大造成算法复杂度过高的问题,本文采用基于方差的特征选择方法对特征向量进行降维,从而达到减少算法复杂度并提高文本聚类效果的目的。此外还对比了欧氏距离、余弦距离两种距离公式对轨迹文本聚类的效果。根据本文对病例轨迹文本进行聚类的研究结果显示有近 70% 的聚类结果具有可解释性。说明通过向量空间模型的 k-means 聚类方法对病例轨迹文本进行聚类具有一定的实用性及参考价值。此外本文还采用重心轨迹分析方法分析了哈尔滨市疫情发展的空间轨迹,其分析结果对于追踪病毒发展轨迹以及对病毒扩散地区及时做好防护措施的预警方面存在一定的研究价值。关键词: 新冠肺炎;向量空间模型;特征选择;文本聚类– I –

 黑龙江大学硕士学位论文AbstractAs novel coronavirus pneumonia continues to develop, more and more informa-tion can be used for statistical analysis. The trajectory information of conf i rmedcases is the main content of the text information that can be studied. It is the di-rection that we can carry out text mining and exploration. This paper takes Harbinas an example. Through statistical research method, the cluster analysis is carriedout on the track of conf i rmed cases and asymptomatic infected persons in Harbinarea as of June 2020. Through the research method of text clustering, it helps theregion to help the region to track existing cases and suspected cases with overlappingtracks with newly diagnosed cases, The author tries to provide scientif i c methodsfor tracing the virus and quickly locking suspected cases.In this paper, the text clustering method based on vector space model (VSM)and k-means algorithm is adopted. In view of the problem that the dimension offeature vector space obtained after track segmentation is too large, the algorithmcomplexity is too high. In this paper, the feature vector is reduced by variancebased feature selection method, Thus the algorithm complexity is reduced and theclustering ef f ect of text is improved. In addition, the ef f ect of Euclidean distanceand cosine distance on the clustering of trajectory text is compared.According to the research results of clustering the case track text, it is shownthat the clustering results of nearly 70% are interpretable. It is proved that k-means clustering method of vector space model has certain practical and referencevalue for case track text clustering. In addition, the paper also uses the method ofcenter of gravity trajectory analysis, analyzes the spatial track of epidemic situationin Harbin. The analysis results have some research value in tracking the developmenttrack of virus and early warning of timely protective measures in the virus dif f usionarea.Keywords: COVID-19;Vector space model;Feature selection;Text clustering– II –

 目录目 录中文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IAbstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II目录 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III第1章 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 研究的背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 研究的目的和意义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 国内外研究现状及发展趋势 . . . . . . . . . . . . . . . . . . . . . . 21.3.1 有关新冠疫情的研究现状 . . . . . . . . . . . . . . . . . . . . . . 21.3.2 文本聚类的研究现状 . . . . . . . . . . . . . . . . . . . . . . . . 31.3.3 向量空间模型研究现状 . . . . . . . . . . . . . . . . . . . . . . . 41.4 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5第2章 文本聚类理论与技术 . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1 基本概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.1 聚类概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.2 文本聚类的流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 文本表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2.1 向量空间模型(VSM) . . . . . . . . . . . . . . . . . . . . . . . . 72.2.2 布尔模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.3 概率模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 特征选择算法研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3.1 文档频率方法(DF)

 . . . . . . . . . . . . . . . . . . . . . . . . 102.3.2 信息增益方法(Information Gain,IG)

 . . . . . . . . . . . . . 102.3.3 期望交叉熵(Expected Cross Entropy,ECE)

 . . . . . . . . . 112.4 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11第3章 哈尔滨疫情描述性统计分析 . . . . . . . . . . . . . . . . . . . . . . 12– III –

 黑龙江大学硕士学位论文3.1 本文数据来源及数据说明 . . . . . . . . . . . . . . . . . . . . . . . . 123.2 描述性分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.3 重心轨迹分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.4 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22第4章 基于VSM模型的哈尔滨新冠病例轨迹的文本分析 . . . . . . . . . . . 234.1 统计方法和 k-means 聚类 . . . . . . . . . . . . . . . . . . . . . . . 234.1.1 TF-IDF算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.1.2 k-means 聚类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 基于VSM模型的轨迹文本聚类模型 . . . . . . . . . . . . . . . . . . 254.2.1 轨迹文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2.2 特征选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.2.3 模型建立与结果分析 . . . . . . . . . . . . . . . . . . . . . . . . 284.3 模型评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.4 本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34结论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35参 考 文 献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37附录 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42致谢 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43独创性声明 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44– IV –

 第1章 引言第1 章 引 言1.1 研 究 的 背 景从古至今,流感所带来的致死率、感染率,以及传播速度是无法预估的,对国家经济、政治、人民生活等各方面造成的损失也是巨大的,是全世界人类的灾难。因此如何有效应对如此突发紧急的公共卫生事件,是需要我们不断研究和探索的。新冠疫情是 21 世纪最为严重的国际突发公共卫生事件,也成为了不同学科研究的焦点。自疫情开始直至近期,有关新冠疫情的文章已超过一万多篇,相关研究除从医学及生物学角度探讨病毒致病机理、特效药物和疫苗研制之外,更多的是探索疫情的非药物防控方法。冠状病毒是自然界常见的一种可引起人体多种疾病的病毒,新型冠状病毒作为一种新发传染病具有易感染、易传播等特点,病情严重可导致肺炎甚至死亡。自 2019 年 12 月底,武汉市发现首例新型冠状病毒病例至 2020 年 10 月份 16 日 24 时,据全国 31 个省累计报告确诊 85659 例,累计治愈出院 80766 例,累计死亡 4634 例。[3] 新冠肺炎疫情的快速、大范围传播涉及病毒、人、环境等因素,对科技界快速应对重大公共卫生事件的能力带来了极大挑战,迫切需要公共卫生学、临床医学、地理科学、公共管理学等多学科交叉探索疫情的准确预测、动态监测、精准防控与有效应对等方面的方法与技术。新型肺炎的出现也促使科研人员与医务人员全力以赴进行科研攻关[4] 。由于新冠肺炎病毒具有很强的传染性,因此对密切接触及疑似感染病例进行及时的隔离是防止病毒进一步扩散的有效措施,特此国家根据新冠病毒潜伏期(3-14天)制定了对可疑及密切接触者进行隔离 14 天的措施[5] 。各省也相继启动公共卫生一级响应,制定了诸如出入车站等人员密集场所测量体温,出入小区登记,对公共场所进行封锁等方案,减少人员的流动,从而减少新冠病毒的传播[6] 。面对突如其来的病毒灾难,了解新冠肺炎病毒以及探索如何有效防控新冠疫情的发展刻不容缓,目前国内针对新型冠状病毒肺炎方面的研究有很多,从新冠肺炎病毒的发病特征、潜伏期到传播方式等诸多方面,然而随着无症状感染者的出现,使得分析病例轨迹传播的研究又增加了一丝挑战,无症状感染者因其并无– 1 –

 黑龙江大学硕士学位论文明显发病症状且具有传染性,是病毒传播的潜在的隐患,因此进一步了解无症状感染者被感染的真实传播途径对今后的疫情防控也具有一定的意义,本文在研究病例轨迹文本聚类的同时也对病例类型做了区分,便于通过聚类挖掘无症状感染者、有武汉接触史确诊病例与确诊病例间在轨迹接触及病毒传播方面的关系。1.2 研 究 的 目 的 和 意 义本文以哈尔滨地区为例,通过统计研究方法对哈尔滨地区自疫情以来两段疫情爆发期的确诊病例以及无症状感染者的行踪轨迹进行文本分析,主要分为以下两方面的研究:一、根据现有数据对哈尔滨地区病例及轨迹信息进行描述性统计分析,探寻本地区病例特征及疫情发展的特点。二、本文采用基于向量空间模型及 k-means 算法的文本聚类方法探索确诊病例、无症状感染者及有武汉出行史病例间在轨迹上的联系,以期了解本地区病例间真实的病毒传染关系。面对疫情形势仍旧严峻的今天,本文所研究的现实意义在于,当发生区域性疫情时,运用本文研究的文本聚类方法能够帮助迅速找到与新增确诊存在接触的已确诊病例或可能发生传染的密切接触人群,帮助病毒溯源和迅速锁定疑似病例,从而采取及时有效的防控措施。同时本文所提出的文本聚类方法也为后续有关此方面的研究提供了参考。针对新冠确诊病例轨迹的文本分析,本文除了采用描述性统计、文本聚类对确诊病例进行分析外,还将采用重心轨迹等分析方法对哈尔滨疫情整体情况做进一步分析。1.3 国 内 外 研 究 现 状 及 发 展 趋 势1.3.1 有 关 新 冠 疫 情 的 研 究 现 状新冠疫情处于严峻形势的同时也吸引了各领域专家对此进行研究。除从医学及生物学角度的研究外外,更多探索的是疫情的非药物防控方法[7] 。本文针对后– 2 –

 第1章 引言者,从传播关系识别、疫情传播途径网络、以及确诊病例与无症状感染者之间的关联从三方面梳理近期研究进展。首先,在传播关系识别方面,新冠肺炎病毒的传播依赖于传染源与人、人与人之间的接触,因此在缺乏疫苗和特效药的情况下,如何从微观层面识别这种关系成为疫情防控的关键[8,9] 。其次,对于目前国内对新冠肺炎确诊病例活动轨迹做的疫情传播途径方面的...

推荐访问:新冠研究的目的与意义 基于文本分析新冠疫情数据统计方法研究 ——以哈尔滨疫情数据为例 疫情 哈尔滨 为例

版权所有:袖书文档网 2002-2024 未经授权禁止复制或建立镜像[袖书文档网]所有资源完全免费共享

Powered by 袖书文档网 © All Rights Reserved.。备案号:鲁ICP备20026461号-1