面向大数据的网络用户行为分析研究
这是一篇关于Web日志,数据挖掘,特征属性,朴素贝叶斯分类,MapReduce的论文, 主要内容为随着信息技术飞速发展,信息已渗透到人们工作生活的各个方面,随之而来的就是信息爆炸时代带来的海量数据。数据正在迅速膨胀,它决定着企业的未来发展,随着时间的推移,人们将越来越多地意识到数据对企业发展的重要性。大数据带来的巨大价值正逐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。因而怎样利用源源不断的数据,整合探究发现其背后的规律,成为了一个重要课题。 网络运营商在为用户提供互联网访问服务时,往往会存储用户的访问日志数据。通过这些数据,运营商可以获取用户的行为习惯特点,针对不同的用户采取不同的营销手段,从而促进企业发展。 因而本文以某运营商的互联网访问日志数据为基础,通过对其进行分类分析挖掘,从中得到用户的特征属性,根据特征属性对用户进行高低消费倾向分类。本文的工作成果主要有如下几个方面: (1)给出了面向大数据的网络用户行为分析系统设计方案。在该系统中,主要由Web日志预处理、用户特征属性提取以及用户行为分类三个模块组成。本文详细介绍了各个模块的设计过程。 (2)提出了基于MapReduce的特征属性提取方法,根据用户访问商品情况,提取商品类别、访问频率、访问时间、地理位置及访问历史等作为用户行为特征属性,并介绍了该方法的并行化设计。 (3)提出了基于特征加权的朴素贝叶斯分类器,根据上文提取的用户特征属性,利用特征加权的分类器,实现对用户行为的分类,并在MapReduce下设计实现了该分类器。 (4)在Hadoop平台环境下对网络用户行为分析系统进行了实现,根据该系统,可以针对Web日志中的电商用户浏览网页情况,对用户进行高消费倾向和低消费倾向的分类预测。
面向大数据的网络用户行为分析研究
这是一篇关于Web日志,数据挖掘,特征属性,朴素贝叶斯分类,MapReduce的论文, 主要内容为随着信息技术飞速发展,信息已渗透到人们工作生活的各个方面,随之而来的就是信息爆炸时代带来的海量数据。数据正在迅速膨胀,它决定着企业的未来发展,随着时间的推移,人们将越来越多地意识到数据对企业发展的重要性。大数据带来的巨大价值正逐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。因而怎样利用源源不断的数据,整合探究发现其背后的规律,成为了一个重要课题。 网络运营商在为用户提供互联网访问服务时,往往会存储用户的访问日志数据。通过这些数据,运营商可以获取用户的行为习惯特点,针对不同的用户采取不同的营销手段,从而促进企业发展。 因而本文以某运营商的互联网访问日志数据为基础,通过对其进行分类分析挖掘,从中得到用户的特征属性,根据特征属性对用户进行高低消费倾向分类。本文的工作成果主要有如下几个方面: (1)给出了面向大数据的网络用户行为分析系统设计方案。在该系统中,主要由Web日志预处理、用户特征属性提取以及用户行为分类三个模块组成。本文详细介绍了各个模块的设计过程。 (2)提出了基于MapReduce的特征属性提取方法,根据用户访问商品情况,提取商品类别、访问频率、访问时间、地理位置及访问历史等作为用户行为特征属性,并介绍了该方法的并行化设计。 (3)提出了基于特征加权的朴素贝叶斯分类器,根据上文提取的用户特征属性,利用特征加权的分类器,实现对用户行为的分类,并在MapReduce下设计实现了该分类器。 (4)在Hadoop平台环境下对网络用户行为分析系统进行了实现,根据该系统,可以针对Web日志中的电商用户浏览网页情况,对用户进行高消费倾向和低消费倾向的分类预测。
基于人工智能的医疗诊断和对话系统
这是一篇关于对话系统,症状筛选,疾病诊断,朴素贝叶斯分类的论文, 主要内容为随着线上医疗咨询对话数据的积累和智能对话系统等新兴技术的飞速发展,对话式智能疾病诊断得到业界和学术界的关注,可以缓解医疗资源压力并为用户提供及时有效的医疗保健辅助支持,具有重要的理论和现实意义。在对话式智能诊断系统中,如何选择问询的症状,对诊断性能和对话效率有重要影响。实际诊断过程中,用户主动报告的症状往往不足,难以支持准确诊断,需要通过对话询问用户是否具有其它症状,从而形成诊断结论。现有研究主要采用强化学习方法,通过逐步学习真实就诊场景中医生与患者的对话过程,获得症状询问和疾病诊断的策略。虽然强化学习具有处理顺序决策问题的优势,但诊断准确率仍较低,而且数据依赖性强、启动资源耗费大、模型结果不具可解释性。针对上述问题,本文提出一种基于朴素贝叶斯分类的疾病诊断算法,通过模拟医生询问和诊断过程为诊断结果增加可解释性,并针对症状询问环节提出一种基于症状集差异的症状筛选算法,最后基于真实数据评估了算法。此外,本文实现了一个能够满足居民常见咨询需求的医疗对话机器人。本文的具体贡献如下:(1)针对强化学习在智能诊断过程中存在的可解释性差、启动资源耗费大等不足,提出一种基于朴素贝叶斯分类的疾病诊断算法。该算法以朴素贝叶斯分类为核心诊断环节,通过本文所定义待确认疾病列表的动态更新,将症状询问和疾病诊断分类有机结合,实现智能诊断的全流程。(2)针对疾病诊断算法中的症状询问环节,提出基于症状集差异的症状筛选算法。该算法借鉴了真实医疗诊断过程中排除患病概率次高疾病的思路,结合二分查找思想,通过疾病症状集的交并运算,实现在较少的询问轮数下,筛选出最能区分疾病的症状,为最终的朴素贝叶斯分类提供决策依据。实验证明,本文提出的症状筛选和疾病诊断算法,在MZ数据集和DX数据集上的疾病诊断准确率分别达到了92.25%和95.19%,相较基线模型KR-DS分别提升了19.25%和21.19%。在DX数据集上的平均对话轮数为3.04轮,比KR-DS减少了0.32轮(9%)。(3)具体设计和实现了一个医疗对话机器人。通过构建包含有100个疾病及其药物、食物、症状、科室等属性的知识图谱,使对话机器人能够根据医学知识图谱,实现8种医学咨询功能,涵盖疾病预防、疾病治疗以及疾病就医指导三个场景,满足居民的常见咨询需求。本文提出的症状筛选和疾病诊断算法以及构建的对话机器人,有助于推动医疗对话系统的发展和应用,具有一定的实际意义。图19幅,表15个,参考文献43篇。
具有反爬虫机制的生态科考数据系统的设计与实现
这是一篇关于数据共享,反爬虫,浏览器指纹,朴素贝叶斯分类,随机森林的论文, 主要内容为生态数据有利于政府和相关学者揭示和预测生态环境变化,而当地生态部门与生态科考的数据具有数据分散和共享性差的特点,导致搜寻数据的时间成本较高。随着数据不断增多,数据的维护和管理工作也变得困难,部分数据的丢失问题也时常发生。网络爬虫技术不断的发展威胁到系统的稳定性和数据的安全性,它可以低成本且大规模的爬取互联网中的数据,给数据的安全问题带来了不确定性。目前,网络爬虫在互联网中的流量达到了历史最高水平,约占总流量的37.2%。生态科考数据系统因此基于有效机制限制和拦截网络爬虫成为系统需要考虑的重要问题。本文的主要工作有:(1)提出基于微服务架构的生态科考数据系统,通过与当地有关部门合作,收集、管理、共享生态数据,构建以在线共享、离线共享为辅的数据共享服务模式,最大程度的共享数据,使数据的有效价值得以发挥。(2)针对当前传统反爬虫机制易被破解而失效的弊端,研究实现基于浏览器指纹技术的爬虫识别方式,充分检测用户Web浏览器所处的环境变化。(3)模拟爬虫访问生态科考数据系统,收集请求信息和行为信息并抽取爬虫特征,提出和构建基于朴素贝叶斯分类模型的爬虫识别模型。还通过随机森林算法筛选爬虫的重要性特征,提升朴素贝叶斯分类模型识别爬虫的能力。随着系统访问量的不断增多而收集更多的特征数据可对分类模型进行训练优化。(4)由于对爬虫的识别精度并不能达到百分之百的原因,有些爬虫依然未被识别。因此研究和实现了针对汉字和数字的反爬虫处理,避免数据描述信息页面展示的关键信息被爬虫轻易的获得。(5)通过基于浏览器指纹等传统反爬虫机制与基于朴素贝叶斯分类的爬虫识别模型组建混合反爬虫机制应用在生态科考数据系统中,提高了系统应对爬虫和数据的安全性的能力。
具有反爬虫机制的生态科考数据系统的设计与实现
这是一篇关于数据共享,反爬虫,浏览器指纹,朴素贝叶斯分类,随机森林的论文, 主要内容为生态数据有利于政府和相关学者揭示和预测生态环境变化,而当地生态部门与生态科考的数据具有数据分散和共享性差的特点,导致搜寻数据的时间成本较高。随着数据不断增多,数据的维护和管理工作也变得困难,部分数据的丢失问题也时常发生。网络爬虫技术不断的发展威胁到系统的稳定性和数据的安全性,它可以低成本且大规模的爬取互联网中的数据,给数据的安全问题带来了不确定性。目前,网络爬虫在互联网中的流量达到了历史最高水平,约占总流量的37.2%。生态科考数据系统因此基于有效机制限制和拦截网络爬虫成为系统需要考虑的重要问题。本文的主要工作有:(1)提出基于微服务架构的生态科考数据系统,通过与当地有关部门合作,收集、管理、共享生态数据,构建以在线共享、离线共享为辅的数据共享服务模式,最大程度的共享数据,使数据的有效价值得以发挥。(2)针对当前传统反爬虫机制易被破解而失效的弊端,研究实现基于浏览器指纹技术的爬虫识别方式,充分检测用户Web浏览器所处的环境变化。(3)模拟爬虫访问生态科考数据系统,收集请求信息和行为信息并抽取爬虫特征,提出和构建基于朴素贝叶斯分类模型的爬虫识别模型。还通过随机森林算法筛选爬虫的重要性特征,提升朴素贝叶斯分类模型识别爬虫的能力。随着系统访问量的不断增多而收集更多的特征数据可对分类模型进行训练优化。(4)由于对爬虫的识别精度并不能达到百分之百的原因,有些爬虫依然未被识别。因此研究和实现了针对汉字和数字的反爬虫处理,避免数据描述信息页面展示的关键信息被爬虫轻易的获得。(5)通过基于浏览器指纹等传统反爬虫机制与基于朴素贝叶斯分类的爬虫识别模型组建混合反爬虫机制应用在生态科考数据系统中,提高了系统应对爬虫和数据的安全性的能力。
基于人工智能的医疗诊断和对话系统
这是一篇关于对话系统,症状筛选,疾病诊断,朴素贝叶斯分类的论文, 主要内容为随着线上医疗咨询对话数据的积累和智能对话系统等新兴技术的飞速发展,对话式智能疾病诊断得到业界和学术界的关注,可以缓解医疗资源压力并为用户提供及时有效的医疗保健辅助支持,具有重要的理论和现实意义。在对话式智能诊断系统中,如何选择问询的症状,对诊断性能和对话效率有重要影响。实际诊断过程中,用户主动报告的症状往往不足,难以支持准确诊断,需要通过对话询问用户是否具有其它症状,从而形成诊断结论。现有研究主要采用强化学习方法,通过逐步学习真实就诊场景中医生与患者的对话过程,获得症状询问和疾病诊断的策略。虽然强化学习具有处理顺序决策问题的优势,但诊断准确率仍较低,而且数据依赖性强、启动资源耗费大、模型结果不具可解释性。针对上述问题,本文提出一种基于朴素贝叶斯分类的疾病诊断算法,通过模拟医生询问和诊断过程为诊断结果增加可解释性,并针对症状询问环节提出一种基于症状集差异的症状筛选算法,最后基于真实数据评估了算法。此外,本文实现了一个能够满足居民常见咨询需求的医疗对话机器人。本文的具体贡献如下:(1)针对强化学习在智能诊断过程中存在的可解释性差、启动资源耗费大等不足,提出一种基于朴素贝叶斯分类的疾病诊断算法。该算法以朴素贝叶斯分类为核心诊断环节,通过本文所定义待确认疾病列表的动态更新,将症状询问和疾病诊断分类有机结合,实现智能诊断的全流程。(2)针对疾病诊断算法中的症状询问环节,提出基于症状集差异的症状筛选算法。该算法借鉴了真实医疗诊断过程中排除患病概率次高疾病的思路,结合二分查找思想,通过疾病症状集的交并运算,实现在较少的询问轮数下,筛选出最能区分疾病的症状,为最终的朴素贝叶斯分类提供决策依据。实验证明,本文提出的症状筛选和疾病诊断算法,在MZ数据集和DX数据集上的疾病诊断准确率分别达到了92.25%和95.19%,相较基线模型KR-DS分别提升了19.25%和21.19%。在DX数据集上的平均对话轮数为3.04轮,比KR-DS减少了0.32轮(9%)。(3)具体设计和实现了一个医疗对话机器人。通过构建包含有100个疾病及其药物、食物、症状、科室等属性的知识图谱,使对话机器人能够根据医学知识图谱,实现8种医学咨询功能,涵盖疾病预防、疾病治疗以及疾病就医指导三个场景,满足居民的常见咨询需求。本文提出的症状筛选和疾病诊断算法以及构建的对话机器人,有助于推动医疗对话系统的发展和应用,具有一定的实际意义。图19幅,表15个,参考文献43篇。
面向大数据的网络用户行为分析研究
这是一篇关于Web日志,数据挖掘,特征属性,朴素贝叶斯分类,MapReduce的论文, 主要内容为随着信息技术飞速发展,信息已渗透到人们工作生活的各个方面,随之而来的就是信息爆炸时代带来的海量数据。数据正在迅速膨胀,它决定着企业的未来发展,随着时间的推移,人们将越来越多地意识到数据对企业发展的重要性。大数据带来的巨大价值正逐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。因而怎样利用源源不断的数据,整合探究发现其背后的规律,成为了一个重要课题。 网络运营商在为用户提供互联网访问服务时,往往会存储用户的访问日志数据。通过这些数据,运营商可以获取用户的行为习惯特点,针对不同的用户采取不同的营销手段,从而促进企业发展。 因而本文以某运营商的互联网访问日志数据为基础,通过对其进行分类分析挖掘,从中得到用户的特征属性,根据特征属性对用户进行高低消费倾向分类。本文的工作成果主要有如下几个方面: (1)给出了面向大数据的网络用户行为分析系统设计方案。在该系统中,主要由Web日志预处理、用户特征属性提取以及用户行为分类三个模块组成。本文详细介绍了各个模块的设计过程。 (2)提出了基于MapReduce的特征属性提取方法,根据用户访问商品情况,提取商品类别、访问频率、访问时间、地理位置及访问历史等作为用户行为特征属性,并介绍了该方法的并行化设计。 (3)提出了基于特征加权的朴素贝叶斯分类器,根据上文提取的用户特征属性,利用特征加权的分类器,实现对用户行为的分类,并在MapReduce下设计实现了该分类器。 (4)在Hadoop平台环境下对网络用户行为分析系统进行了实现,根据该系统,可以针对Web日志中的电商用户浏览网页情况,对用户进行高消费倾向和低消费倾向的分类预测。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://bishedaima.com/lunwen/49828.html