肺癌文本聚类中距离测度的研究
这是一篇关于肺癌,距离测度,文本表示,文本聚类的论文, 主要内容为在“互联网+医疗健康”快速发展的今天,互联网问医行为越来越普遍,由于线上问医行为产生的文本具有大量、无标签、话题广泛等特点,因此很多线上交流的医疗论坛未能实现内容的模块化分类放置。话题不加区分随意放置往往不利于网民精准、快速查询想要了解领域的相关内容。另外,很多网友在出现身体不适的相关症状时,往往喜欢利用搜索引擎来帮助自诊,但若在检索过程中存在关键词遗漏或不精确等现象,很容易造成对疾病的误诊与漏诊。作为中国第一大癌——肺癌,其早期治愈率可达100%,若早期出现症状的肺癌患者在利用搜索引擎进行检索时,有专用肺癌症状库内词条可互为搜索推荐词来防止检索内容的遗漏,配合在医疗线上交流网站对肺癌共性症状的学习与自查,可大大提高患者对肺癌筛查的警惕性,从而提高肺癌诊出率。同时,由于线上医疗文本的无标签性,决定了无论是对肺癌问医内容进行模块化分类放置,还是建立肺癌症状的关键词库,都需要采取文本挖掘技术配合聚类算法来实现目标。本文以中文医疗对话数据集的肿瘤文本为研究对象,对其展开肺癌短文本与关键词的聚类研究。为提高对于肺癌相关文本进行聚类过程中的精确性,需对文本的距离测度进行更加精准的度量,即减少文本在结构化过程中的信息丢失。针对问答内容分类放置的肺癌短文本聚类问题,本文提出了一种传统文本表示模型的辅助算法,该算法在传统模型的基础上以泊松分布模拟词分布,保留了更多的文本概率信息,从而可以更精确地衡量文本距离。通过大量的对比试验和词云可视化结果可知,传统算法与辅助算法的集成算法相较于TF-IDF、Word2Vec、基于TF-IDF加权的Word2Vec三种传统算法在ARI、AMI、FMI指标上的效果均有明显的提升,可以有效地将肺癌短文本通过聚类提取出来。针对建立肺癌症状专用词库的肺癌词向量聚类问题,本文利用知识图谱结合共现距离度量的聚类方法,从学者、网民和医疗工作者三个角度出发,对中国知网文献库和医患问答语料库的关键词进行了肺癌症状类词条的提取与扩充,建立了肺癌症状搜索推荐的专用词库。最终与百度搜索指数进行拟合检验可知,“肺癌早期症状”类团内的关键词可在搜索引擎中互为补充推荐词条,该类团内越多词条共现,检索到肺癌早期症状的可能性越大。
基于深度学习的肺癌CT图像亚型分类系统的设计与实现
这是一篇关于肺癌,卷积神经网络,亚型分类,系统设计的论文, 主要内容为目前中国肺癌发病率与死亡率均排在所有癌症首位,因此对于肺癌的诊断与治疗一直是研究的热点。肺癌包含多种组织亚型,每个类别需采用不同的治疗方案,所以准确及时的分类是系统治疗的第一步,也是关键性的一步。临床上,病理组织检查是鉴别肺癌亚型的金标准,但这种侵入性诊断方法不适用于某些病人,而且成本较高、费时费力。因此本文在肺癌分型算法研究的基础上,设计并实现了一款基于深度学习的肺癌亚型分类系统,旨在减轻医生工作负担。首先,介绍了肺癌亚型分类算法的国内外研究现状,目前研究主要采用人工获取特征的放射组学方法和自主获取特征的深度学习方法,并分析了二者优缺点。其次,研究基于Res Net-50的肺癌分型算法。为了探究肺肿瘤及瘤周组织对模型分类性能的影响,本文设计了三种图像预处理方法构建数据集,并利用此数据集设计了对比实验,通过VGG-16、VGG-19、Res Net-50模型验证分类效果,结果表明,Res Net-50网络综合效果最好,但是在数据集类别不平衡时,少数类的分类效果较差。然后,研究基于改进3D-Res Net的肺癌分型算法。从网络结构和数据类型考虑,本文将研究基础网络改为三维卷积神经网络(3D-Res Net),同时引入正则化方法Manifold Mixup,设计了改进的3D-Res Net网络。这两种改进方法有效解决了网络对少数类分类效果差的问题,F1分数提高了4~5个百分点。结果表明,改进的3D-Res Net网络具有较好的肺癌亚型分类性能,更符合临床应用需求。最后,本文通过分析胸部CT影像诊断的需求,完成了对肺癌亚型分类系统整体框架的设计,开发了系统功能模块,满足用户信息管理、图像基础操作、肺癌亚型分类以及保存修改诊断信息等功能的需求。为验证系统实用性,进行了软件功能和性能测试。结果表明,该分类系统满足临床需求。
基于知识图谱的肺癌医案四诊信息组合规律挖掘研究
这是一篇关于肺癌,知识图谱,命名实体识别,社团划分,Neo4j的论文, 主要内容为肺癌是我国发病率和死亡率均高居首位的恶性肿瘤,这不仅给患者家庭带来了巨大的经济负担和生活压力,更是对患者的生理与心理健康造成严重的威胁。随着国家的大力支持,中医药相关领域快速发展起来,中医药特色疗法已然成为我国治疗肿瘤的重要方法之一。然而,由于医疗信息化的发展,医学数据日益增多,这些数据混乱而又复杂且蕴含着丰富的语义信息,如何将这些零散、琐碎的信息相连接实现知识整合已成为医学领域研究的热点问题。针对现有问题,一个有效的解决方案就是构建医疗相关知识图谱。知识图谱是一个以网络为架构对各领域存在的零散、杂乱的实体、概念及其关系进行捕捉并以图形化的方式更准确、直观地呈现出来的方法。现阶段,市面上已出现很多成熟的大规模知识库,但中医领域由于其自身的特性使得相关知识图谱的构建仍处于探索阶段,不利于中医知识的传播与共享。因此,本文利用知识图谱技术对肺癌医案数据进行四诊信息相关知识图谱的构建,以便从肺癌医案数据中挖掘潜在知识,为医疗工作者进行肺癌相关课题探索提供研究思路和理论支撑。本论文主要工作如下:(1)为从肺癌医案中获取丰富的四诊信息,本文利用基于字向量BiGRU-CRF方法实现肺癌医案四诊信息相关实体抽取研究。首先,通过BERT模型对基于自定义词典自动化标注后的肺癌临床数据进行预训练,得到包含上下文语义的字向量,再将其作为BiGRU-CRF模型输入,实现肺癌医案四诊信息命名实体抽取。对比实验结果发现该方法无论是在症状、舌象、脉象或程度副词的实体抽取结果准确率都要优于其他模型,说明在中医医案命名实体抽取研究中本文方法具有更强的命名实体识别能力,可以更好地应用于中医医案命名实体抽取研究。(2)为实现对肺癌医案四诊信息进行症状群及其组合规律的分析挖掘研究,本文首先将肺癌数据转化为5个共现矩阵,再利用Fast Unfolding算法对其进行社团划分。实验结果表明“临床表现—临床表现”、“临床表现—舌象”、“舌象—脉象”、“舌象—舌象”和“临床表现—脉象”分别可划分为5、4、3、2、2个社团。本文初步实现肺癌医案四诊信息的症状群特点及其组合规律研究,为最终肺癌医案四诊信息知识图谱构建提供实验基础。(3)为实现肺癌医案四诊信息相关知识图谱构建以及可视化展示,本文利用Neo4j技术将抽取到的实体以及实体间的关系转化成一种结构化、图形化的知识图谱形式。实验不仅可以直观地发现四诊信息相关实体间的关系,还能根据实验需求的不同生成多种肺癌医案四诊信息知识图谱,为深入开展肺癌领域相关研究和实体间潜在关系的发现奠定基础。
基于深度学习的肺癌CT图像亚型分类系统的设计与实现
这是一篇关于肺癌,卷积神经网络,亚型分类,系统设计的论文, 主要内容为目前中国肺癌发病率与死亡率均排在所有癌症首位,因此对于肺癌的诊断与治疗一直是研究的热点。肺癌包含多种组织亚型,每个类别需采用不同的治疗方案,所以准确及时的分类是系统治疗的第一步,也是关键性的一步。临床上,病理组织检查是鉴别肺癌亚型的金标准,但这种侵入性诊断方法不适用于某些病人,而且成本较高、费时费力。因此本文在肺癌分型算法研究的基础上,设计并实现了一款基于深度学习的肺癌亚型分类系统,旨在减轻医生工作负担。首先,介绍了肺癌亚型分类算法的国内外研究现状,目前研究主要采用人工获取特征的放射组学方法和自主获取特征的深度学习方法,并分析了二者优缺点。其次,研究基于Res Net-50的肺癌分型算法。为了探究肺肿瘤及瘤周组织对模型分类性能的影响,本文设计了三种图像预处理方法构建数据集,并利用此数据集设计了对比实验,通过VGG-16、VGG-19、Res Net-50模型验证分类效果,结果表明,Res Net-50网络综合效果最好,但是在数据集类别不平衡时,少数类的分类效果较差。然后,研究基于改进3D-Res Net的肺癌分型算法。从网络结构和数据类型考虑,本文将研究基础网络改为三维卷积神经网络(3D-Res Net),同时引入正则化方法Manifold Mixup,设计了改进的3D-Res Net网络。这两种改进方法有效解决了网络对少数类分类效果差的问题,F1分数提高了4~5个百分点。结果表明,改进的3D-Res Net网络具有较好的肺癌亚型分类性能,更符合临床应用需求。最后,本文通过分析胸部CT影像诊断的需求,完成了对肺癌亚型分类系统整体框架的设计,开发了系统功能模块,满足用户信息管理、图像基础操作、肺癌亚型分类以及保存修改诊断信息等功能的需求。为验证系统实用性,进行了软件功能和性能测试。结果表明,该分类系统满足临床需求。
在线肺癌病例数据库的构建和初步应用
这是一篇关于肺癌,数据库,标本库,数据挖掘,信息技术,WAMP的论文, 主要内容为研究目的: 肺癌是全世界第一高发的恶性肿瘤,其发病率和死亡率仍居高不下。据统计2008年我国肺癌新发病例数约52.2万、死亡病例数约为45.3万,5年生存率徘徊在16%。为攻克这一顽疾,相关医学研究络绎不绝。而无论是肺癌的临床研究还是基础研究均无法离开肺癌病例数据的挖掘,如何处理好现存丰富的肺癌病例数据资源,并从中发现、挖掘出有用的数据信息十分必要。在信息技术蓬勃发展的时代,各种各样的信息管理技术层出不穷,数据库不仅成为存储和管理海量数据的仓库,而且能高效地组织和分析数据以满足不同用户的需求。我院拥有着丰富的肺癌病例资源,为更好更充分地高效利用这些资源以满足我院肺癌流行病学调查、临床基础研究和医学转化研究,并实现肺癌病例数据共享,本课题采用新一代的B/S模式的数据库软件架构,旨在构建我院在线肺癌病例数据库。 研究方法: 在仔细调研我院肺癌病例诊断与治疗流程的基础上,重点考察了一般临床资源表、临床评估资源表、血清数据模板、组织标本模板四个肺癌病例数据资源功能模式,对其进行了关系映射,并通过迭代的需求分析,按照关系数据库设计原则建立了完整的数据库关系模式。在此基础上,结合系统功能需求,为整个数据库系统设计了数据查询、分析、数据管理和系统维护四大模块,以满足不同用户的系统要求,同时兼顾了系统的扩展需要。 基于系统的开放性与研究性本质,系统采用B/S模式的数据库软件架构,整个在线肺癌病例数据库管理平台以PHP+Apache+MySQL为核心程序架构。PHP是服务器端的计算机脚本语言,Apache是Web服务器,MySQL是以SQL语言为基础的数据库。三者均为开放源代码、免费的、能在Linux和Windows等多种操作系统下跨平台开发和运行。出于易用性与后期系统维护的方便,使用Windows作为系统运行平台。最终选择WAMP (Windows+PHP+Apache+MySQL)平台搭建肺癌病例数据库计算机管理系统。 录入我院2000年1月至2009年12月的肺癌手术病例约1055例,均以术后病理诊断为确诊标准,依据2004年WHO病理学诊断划分肺癌组织类型;依据2009年UICC第7版肺癌国际分期标准进行TNM分期的录入和数据信息的提取。 研究结果: 建立了临床资源丰富、数据结构合理并且拥有肺癌标本相关病例数据信息的大型综合性在线肺癌病例数据库。建成后的肺癌病例数据库依托高效的计算机管理系统运行,主要包含数据查询,数据分析,数据管理和系统维护四大模块,各运行模块简洁流畅、易于操作、管理。总体反应了肺癌病例在发病、诊断、疗效等全方位的功能作用,数据形式表现多样、随时间动态变化的各项肺癌信息以动态的网页页面形式呈现在访问者的面前,从基本信息管理、检验诊断信息管理、病理诊断信息管理、影像诊断信息管理、临床治疗信息管理、肿瘤样本信息管理、临床评估信息管理七个方面综合归纳整理肺癌病例数据信息。我们通过PHP+Apache+MySQL核心软件设计建立的肺癌病例数据库系统能进一步实现数据的导入和导出功能及网络数据的共享。 对数据库中的纳入数据进行统计分析,确定所建肺癌病例数据库的初步运行状态,并通过数据的归纳总结,了解我院肺癌构成比、临床病理基本特征及生存预后等肺癌流行病学现状。 结论: 肺癌病例数据库全面高效、应用面广、专业性强、可扩展性好,不仅有助于医疗人员对肺癌病例信息的管理与查询,更有助于基础研究人员对肺癌病例的分析与数据挖掘研究。同时信息技术的飞速发展使得海量的信息数据能安全存储、便于检索,通过对数据的统计分析有助于挖掘有利的信息资源,为进一步开展有效的临床医学转化研究提供依据。目前我国也建成了不少肿瘤数据库,但是缺乏病种针对性,肺癌单病种数据库的建立完善了这方面的不足。 我们将新一代的数据库技术运用于肺癌病例数据资源中,设计发布的肺癌病例数据库能安全地组织、存储肺癌数据,使得肺癌数据资料的研究处理更高效、准确、安全。在严密保护肺癌患者隐私情况下还可进一步通过网络技术实现数据共享,从而合理开发利用宝贵有限的数据资源。随着肺癌临床科研的进展,建成的肺癌病例数据库可简便地增减数据表中的项目,不仅仅局限于横向的肺癌发病、诊断、治疗等信息的比较,随时间动态变化的数据也记录在后台的数据库中,这样使得医院的HIS病历系统中的信息资源更具有活力。 本肺癌病例数据库不仅可运用在肺癌流行病学调查、疾病特征和诊断、治疗方式的统计等方面,还兼有血液标本库及组织标本库的功能,在基础实验研究的同时与临床资料紧密结合,注重统计不同暴露条件下疾病缓解率、疾病控制率、及抗癌药物的毒副反应的差异。在该数据库长期运行下,也能跟进中位生存时间、总生存期方面的测评,得出的研究结果意义更大、指导性更强。肺癌数据库的建设目前尚在初步运行阶段,可能还会出现诸多问题,还要考虑网络安全及医疗信息保密性。随着肺癌病例数据库的广泛使用并不断加以改进完善,其发挥的作用和影响面将越显重要和必要。
IL-6R mRNA对卵巢癌、肺癌和乳腺癌的预后作用研究
这是一篇关于IL-6R mRNA,卵巢癌,肺癌,乳腺癌,meta分析的论文, 主要内容为研究背景肿瘤是全球主要的公共卫生问题之一,肿瘤微环境是肿瘤细胞赖以生存的重要环境,可促进肿瘤的进展和细胞转移。白细胞介素-6/白细胞介素-6受体(IL-6/IL-6R)信号通路在正常体内平衡和免疫反应中具有广泛的生物学活性,是促进肿瘤进展的重要细胞因子。目前,已有多项研究阐述了 IL-6在各种肿瘤中的作用,更有相应的临床试验得以证实。已知,IL-6传导信号,必须与IL-6R结合,通过gp130向胞内传递信号。然而,IL-6R对各种肿瘤的预后作用的研究却相对较少。因此,本研究着眼于IL-6RmRNA,探讨IL-6RmRNA表达在卵巢癌、肺癌和乳腺癌中潜在的临床和生物学功能。研究目的1、揭示IL-6RmRNA表达对卵巢癌、肺癌和乳腺癌的预后作用;2、探讨在各个肿瘤中IL-6、IL-6R和gp130的表达相关性;3、阐明在不同肿瘤中,与IL-6RmRNA表达关联最强的基因主要富集的生物学过程和通路;4、探寻IL-6R mRNA在不同肿瘤中生物学功能的差异。材料和方法1、在Pubmed和基因表达数据库中分别以“ovarian cancer”、“lung cancer”和“breast cancer”为关键词检索相关数据集。数据集纳入的标准为:(1)数据库标本种属为人类;(2)数据库类型为序列矩阵;(3)样本量大于或等于100;(4)具有完善的生存时间和生存状态信息;(5)基因表达数据中包含所研究的分子,即IL-6RmRNA。同时,本研究也将各个肿瘤相对应的TCGA数据集纳入分析。2、提取所有符合要求数据集中的主要信息。当数据集中多个数值对应一个基因位点时,取其均值作为该基因的表达值。采用Cutoff inder网站选择合适的截断值,将IL-6R mRNA转换为二分类变量。3、对于每个独立的数据集,我们采用了单因素和多因素Cox比例风险模型分析IL-6R mRNA对患者预后的作用,提取风险比(hazard ratio,HR)和95%置信区间(95%confidence interval,95%CI),采用STATA 12.0软件对所有数据结果进行meta汇总分析。4、本研究通过分析IL-6、IL-6R和gp130两两之间的相关性,并对所有数据集中的相关系数做Fisher’Z转换,运用R软件中meta软件包metacor函数对相关系数进行汇总,揭示三者的两两相互作用关系。5、我们分析了各个数据集中所有测量的基因与IL-6R mRNA的相关系数,提取出在大于等于半数数据集中相关系数绝对值较大的基因,应用DAVID网站(https://david.ncifcrf.gov/)进行富集分析。研究结果1、本研究中共纳入8个卵巢癌数据集,单因素分析合并HR为0.62,95%CI为(0.45,0.86);多因素分析合并 HR 为 0.63,95%CI 为(0.45,0.86)。2、卵巢癌中IL-6与IL-6R以及IL-6R与gp130之间的相关系数均无统计学差异,IL-6与gp130呈正相关(r=0.225,P<0.001),且高表达IL-6R的患者IL-6与gp130的相关系数高于低表达IL-6R的患者(r=0.310,P<0.001 vs.r=0.182,P<0.001)。3、在大于等于4个数据集中,共有116个基因与IL-6R的相关系数绝对值大于0.3,这些基因主要富集于炎症反应和免疫反应生物学过程,同时还包括细菌病毒感染等。4、共纳入8个肺腺癌数据集以及6个肺鳞癌数据集,肺腺癌单因素分析合并HR为 0.50,95%CI 为(0.33,0.68);多因素分析合并 HR 为 0.50,95%CI 为(0.35,0.73)。肺鳞癌单因素分析合并HR为1.59,95%CI为(0.98,2.59);多因素分析合并HR为1.64,95%CI 为(0.98,2.75)。5、IL-6和IL-6R在肺腺癌中呈负相关(r=-0.199,P0.001),而在肺鳞癌中呈正相关(r=0.288,P<0.001)。IL-6R和gp130在肺腺癌和鳞癌中均呈正相关,且相关系数相差不大(肺腺癌r=0.332,肺鳞癌r=0.334)。6、在大于等于4个肺腺癌数据集中,共有193个基因与IL-6R的相关系数绝对值大于0.4,这些基因主要富集于细胞分化和细胞周期。在大于等于3个肺鳞癌数据集中,共有101个基因与IL-6R的相关系数绝对值大于0.4,这些基因主要富集于细胞增殖、自然杀伤性细胞介导的毒性等。7、本研究中共纳入17个乳腺癌数据集,单因素分析合并HR为0.66,95%CI为(0.45,0.95),多因素分析合并 HR 为 0.54,95%CI为(0.37,0.78)。8、乳腺癌中,IL-6和gp130,IL-6R和gp130的相关系数均无统计学差异,IL-6和 IL-6R 呈正相关(r=0.198,P<0.001)。9、在大于等于8个乳腺癌数据集中,与IL-6R相关系数绝对值大于0.4的共计139个基因纳入功能富集分析,主要富集于B细胞受体信号通路、炎症反应、免疫反应以及调节血小板聚集和T细胞分化等。结论1、卵巢癌、肺腺癌、乳腺癌患者肿瘤组织中IL-6RmRNA水平与患者的预后有关,IL-6RmRNA水平越高,患者预后越好,可被用作其预后指标。在肺鳞癌患者中,其差异无统计学意义,但其95%CI下限接近1.00(0.98)。由于纳入分析的各个数据集中肺鳞癌患者样本量较少,该结论需要更大样本量的研究验证。2、在不同肿瘤或不同亚型的肿瘤中,IL-6R及其相关基因主要富集的生物学过程或通路不完全相同,IL-6、IL-6R以及gp130之间的相关性以及IL-6R mRNA对肿瘤患者的预后作用也不同。3、本研究不同肿瘤纳入分析的数据集个数相差较大,尤其是肺鳞癌数据集,相对数据集数量较少,且各个数据集样本量较少。需要更多包含多种重要临床参数特别是化疗信息的数据来进一步验证以及探讨IL-6R mRNA与恶性肿瘤预后之间的关系。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码向导 ,原文地址:https://bishedaima.com/lunwen/47535.html