推荐系统下的托攻击检测方法研究
这是一篇关于推荐系统,托攻击,用户声誉度,SMOTE,Adaboost的论文, 主要内容为近年来,随着社会经济快速发展,互联网使商品数据呈指数爆发式增长,推荐系统能够帮助人们从海量商品信息中找到相关或喜好的商品,且促进商品经济的发展。但是由于互联网推荐系统开放性较强,导致部分用户可以通过注入伪造的用户信息,对推荐系统中的目标项目的排名进行更改。因此上述的攻击行为在一定程度上干扰了推荐系统的正常运行,从而导致推荐系统的应用和推广受到阻碍。鉴于此,本文提出了两种推荐系统下的托攻击检测的改进算法,具体研究内容如下:(1)针对已有的托攻击分类属性分辨率不高和无监督攻击检测算法准确率较低的问题,本文提出基于改进K均值聚类的托攻击检测算法。该算法引入用户声誉IGR分类特征属性,从而使改进后的K均值聚类算法能够把大部分攻击者聚集在一起。同时,由于聚类后的攻击用户集合中存在真实用户被误判的问题,且考虑到攻击用户的评分间隔时间较于正常用户非常小,提出用户评分间隔加权的RDMA(Score-RDMA,SRDMA)算法对其进行二次分类,最终减少了托攻击对推荐系统造成的影响。实验结果表明,本文提出的基于改进K均值聚类的托攻击检测算法可以有效检测托攻击概貌模型,与对比算法比较,其检测效果更优。(2)针对含有正常用户和攻击用户的不平衡数据集影响托攻击检测精度的问题,本文提出基于改进集成学习的托攻击检测算法。分别在数据预处理和分类方面进行研究分析。首先在解决类别不平衡问题的经典数据合成方法SMOTE的基础上提出改进算法P-SMOTE。P-SMOTE算法在数据预处理阶段对数据过采样前,先计算了各个样本点之间的Pearson相关系数,然后根据Pearson相关系数的比较来确定样本插值的系数,最后具体特异性地进行插值操作。这样不仅改进了数据的不平衡性,而且在保证不存在过拟合的情况下充分考虑了样本的分布规律,可以在一定程度上促使最终的分类效果更好。同时,鉴于托攻击与正常用户在评分变化幅度上的差异,且集成学习能够很好的解决过拟合的问题,提出基于加权熵的Adaboost-SAMMA算法(Adaboost-SAMMA Based on Entropy,E-SAMMA)对数据集进行托攻击检测的分类,实验结果显示E-SAMMA算法在攻击检测分类效果上优于对比算法。
推荐系统下的托攻击检测方法研究
这是一篇关于推荐系统,托攻击,用户声誉度,SMOTE,Adaboost的论文, 主要内容为近年来,随着社会经济快速发展,互联网使商品数据呈指数爆发式增长,推荐系统能够帮助人们从海量商品信息中找到相关或喜好的商品,且促进商品经济的发展。但是由于互联网推荐系统开放性较强,导致部分用户可以通过注入伪造的用户信息,对推荐系统中的目标项目的排名进行更改。因此上述的攻击行为在一定程度上干扰了推荐系统的正常运行,从而导致推荐系统的应用和推广受到阻碍。鉴于此,本文提出了两种推荐系统下的托攻击检测的改进算法,具体研究内容如下:(1)针对已有的托攻击分类属性分辨率不高和无监督攻击检测算法准确率较低的问题,本文提出基于改进K均值聚类的托攻击检测算法。该算法引入用户声誉IGR分类特征属性,从而使改进后的K均值聚类算法能够把大部分攻击者聚集在一起。同时,由于聚类后的攻击用户集合中存在真实用户被误判的问题,且考虑到攻击用户的评分间隔时间较于正常用户非常小,提出用户评分间隔加权的RDMA(Score-RDMA,SRDMA)算法对其进行二次分类,最终减少了托攻击对推荐系统造成的影响。实验结果表明,本文提出的基于改进K均值聚类的托攻击检测算法可以有效检测托攻击概貌模型,与对比算法比较,其检测效果更优。(2)针对含有正常用户和攻击用户的不平衡数据集影响托攻击检测精度的问题,本文提出基于改进集成学习的托攻击检测算法。分别在数据预处理和分类方面进行研究分析。首先在解决类别不平衡问题的经典数据合成方法SMOTE的基础上提出改进算法P-SMOTE。P-SMOTE算法在数据预处理阶段对数据过采样前,先计算了各个样本点之间的Pearson相关系数,然后根据Pearson相关系数的比较来确定样本插值的系数,最后具体特异性地进行插值操作。这样不仅改进了数据的不平衡性,而且在保证不存在过拟合的情况下充分考虑了样本的分布规律,可以在一定程度上促使最终的分类效果更好。同时,鉴于托攻击与正常用户在评分变化幅度上的差异,且集成学习能够很好的解决过拟合的问题,提出基于加权熵的Adaboost-SAMMA算法(Adaboost-SAMMA Based on Entropy,E-SAMMA)对数据集进行托攻击检测的分类,实验结果显示E-SAMMA算法在攻击检测分类效果上优于对比算法。
评论文本情感倾向性分析方法研究
这是一篇关于评论文本,情感分类,Adaboost,长短时记忆网络,注意力机制的论文, 主要内容为随着互联网的快速发展,电子商务和社交平台的涌现,大量用户在互联网上发表观点和看法、抒发情感和表达见解,产生了大量的短篇或长篇评论。利用自动情感倾向性分析技术挖掘海量评论文本所包含的情感倾向,能够发现大众的情感演化规律,为制定营销策略和监控社会舆情提供决策支持,具有重要的应用价值。然而,由于短文本评论的有效情感词少,长文本评论的篇幅长、正负情感特征分布离散,现有方法仍存在较大的提升空间,因此论文分别针对短文本和长文本评论情感倾向性分析中存在的难题进行研究。论文的主要成果和创新包括:(1)提出了一种扩展语义相似情感词的短文本情感倾向性分析方法。针对由于短文本评论有效情感词少导致的情感特征稀疏问题,提出一种基于扩充语义相近情感特征的短文本情感倾向性分析方法。该方法首先基于词嵌入相似性度量扩展语义相似的词语为情感特征,然后联合文档频和词频(DF-TF)特征进行特征降维,最后利用Adaboost算法进行情感分类。在酒店和手机评论语料上进行实验,结果表明,情感分类正确率高,分类效果较好。该方法通过计算词间语义相似度扩充情感词有效地丰富了短文本的情感语征,提出的文档频-词频特征降维方法进一步提升了情感分类的正确率。(2)提出了一种基于注意力双层LSTM的长文本情感倾向性分析方法。针对由于长文本评论篇幅长,正负情感特征离散分布且每个句子的的情感语义贡献度不同,导致难以准确判断全文情感倾向的问题,提出一种基于注意力双层LSTM的长文本情感倾向性分析方法。该方法首先利用LSTM学习句子级情感向量表示;然后采用双向LSTM对文档中所有句子的情感语义及句子间的语义关系进行编码,并基于注意力机制对具有不同情感语义贡献度的句子进行权值分配;最后,加权句子级情感向量表示得到长文本的文档级情感向量表示,经过Softmax层得到长文本情感倾向。在Yelp2015和IMDb电影评论语料上实验,结果表明该方法能达到了较好的分类效果,进一步提升了情感分类的正确率。(3)构建了一个评论文本情感倾向分析的原型系统。为了实现判定评论文本情感倾向性,设计并实现了一个评论文本情感倾向分析系统。系统采用B/S架构,主要功能包括预处理、短文本情感倾向判定、长文本情感倾向判定和结果显示。系统中各模块相互独立,在模块间采用文件的方式进行数据交互,降低模块间的耦合度,系统界面友好、兼容性强、稳定性好。
蛋白质热稳定性分类预测系统的设计与实现
这是一篇关于蛋白质热稳定性,数据分类预测,特征选择,支持向量机,Adaboost的论文, 主要内容为蛋白质是生命活动的主要物质承担者和重要的生物催化剂,在工业生产中有着较大的应用潜力和良好的发展前景。然而,大部分蛋白质都是常温蛋白质,不能满足工业生产中热处理的要求,其较低的热稳定性严重制约了它们在工业生产中的应用。通过模式识别方法研究蛋白质热稳定性机制进而提升其热稳定性一直是计算生物学和蛋白质工程研究领域中的一个重要方向。开发一个能有效预测蛋白质热稳定性分类的系统将有助于研究者探索蛋白质的热稳定性机制。本系统的主要功能是对蛋白质序列的热稳定性分类进行预测并通过分类模型分析出与热稳定性有重要关联的特征。系统提供了大量蛋白质序列作为训练分类模型的数据集,为用户提供了序列特征计算、特征选择、分类模型建立、蛋白质热稳定性预测、预测结果分析和数据文件导出等功能。用户通过系统得出的结果可以为改造蛋白质序列结构,提升蛋白质热稳定性的实验提供理论支持。系统在MyEclipse平台的基础上,使用Java语言开发,运用Spring MVC框架进行系统架构,采用MySQL对数据进行存储,实现了数据准备模块、数据分类预测模块、预测结果分析模块和系统管理模块。在数据准备模块中,系统根据蛋白质序列计算430维序列特征并使用信息增益、信息增益率和Relief特征选择算法对特征集进行降维。在数据分类预测模块中,系统使用Adaboost算法建立组合分类模型。其中,组合分类模型中的基分类器由支持向量机算法训练得出。经过系统测试,系统能够较为精确的预测未知热稳定性分类的蛋白质序列并能分析出与蛋白质热稳定性有重要关联的特征,在功能和性能上都满足用户的需求,达到了预期的设计效果。
面向关联数据的实体对齐方法研究
这是一篇关于实体对齐,Adaboost,关联数据,机器学习,MapReduce的论文, 主要内容为无论是在传统Web场景还是语义Web场景下,知识互联始终是一个重要的问题,大规模知识图谱的构建为此提供了坚实的基础,知识图谱中的一个重要的部分就是多数据源之间OWL:sameAs链接的发现,这也是实体对齐(Entity Alinment)工作所要解决的问题。关联数据集之间的描述异构性使得适用基于模式的方法效果并不是很好,实体链接存在缺失。利用独立于模式的链接发现方法则可以在兼顾数据语义标签特征及统计特征的基础上发现缺失链接。本文通过将传统的基于模式下属性规则的对齐问题转换为独立于属性的二分类问题,针对关联数据集特殊场景,通过对数据集的语义特征抽取以及对抽取后的特征向量进行特征分析,在此基础上提出了一种基于机器学习分类算法的实体对齐算法,在关联数据集上的实验证明了此方法有助于一些缺失links的发现,并将此方法应用于设计、构建链接发现系统。主要研究内容如下:(1)对关联数据集合进行语义特征解析,提出了一种面向关联数据集的基于属性文本语义特征的实体对齐方法(Semantic Features based Entity Alignment,SFEA)。该方法充分利用关联数据作为对齐工作的数据来源,在对RDF数据进行语义特征解析的基础上,使用JSON技术并结合语义标签特征划分得到主要有效的九大类文本信息,构建具有显著语义特征的文本向量集待用。为了减少文本处理的工作量,本文还引入了倒排索引来生成候选实体集合。(2)特征向量构建匹配过程中,为了保证评估可靠性,使用MapReduce模型框架实现属性文本序列化计算工作,使用key-value形式存储信息,并综合选取具有较好类别区分能力的五大类综合性TF·IDF统计方法对文本特征进行建模,在筛选过滤有效信息的同时最大程度保证了候选实体对完整性,降低了计算复杂度。(3)提出了一种适用于大规模数据集合有监督的机器学习分类算法,利用特征向量信息以及关联数据集中特有的已存链接信息对数据集实体间关系进行有效分类。分类器生成过程中,一方面使用广泛验证有效的C4.5算法学习得到基本分类器,另一方面为得到性能良好的综合分类器使用改进的Adaboost算法扩展使用训练数据,最终得到性能良好的综合分类器,进而在大规模数据集上使用训练好的模型对实体关系进行分类。(4)将基于机器学习的实体对齐算法应用到了实际的实体链接构建系统设计中,本文在典型关联数据集合上进行了实验,对算法的实际对齐效果进行了有效测试。
基于人脸跟踪的视频共享网站的设计与实现
这是一篇关于人脸跟踪,隐私保护,J2EE,Adaboost,camshaft的论文, 主要内容为近年来,由于视频网站、微博等共享平台的兴起以及随着计算机技术、多媒体技术的不断发展,越来越多人选择在web上分享视频,既可以分享所看到的有趣的东西,也能借此记录生活的点滴,展现自己的生活圈。目前的视频共享平台只提供观看和评论功能,存在以下不足:1.视频浏览用户并不认识视频中的人物,但又想取得其相关信息,只能通过联系上传者获取,无法随时通过视频直接获取;2.上传者在没有得到视频中的人物同意的情况下上传视频,容易造成对视频中人物的肖像权和隐私权的侵犯,目前的视频共享平台没有提供相应的功能供用户对视频进行加工编辑,用户只能自己通过软件进行编辑再上传,从而造成不便。 本文的主要工作是针对上面提出的问题,设计并实现了一个基于人脸跟踪的视频共享网站。整个系统的开发包括需求分析、架构设计、以及数据库设计都遵循软件工程规范,同时采用J2EE技术和SSH框架实现了一个视频共享网站。系统具有上传视频、播放视频、查询视频、编辑视频以及用户信息管理等基本功能。与一般视频共享网站不同的是,系统通过使用Adaboost+camshaft算法实现人脸检测和跟踪,用户可以根据需要对系统分析视频所得到的人物列表对人物进行添加信息或遮挡人脸,既可以方便其他用户获取视频人物的信息,也可以做到隐私保护。 目前已经完成一个视频共享网站的原型系统,该系统除了具有视频网站的基本功能外,还能让用户根据需要对视频中人物添加信息和实现遮挡。系统基本满足实际应用需求,同时也可以作为一个测试平台用作视频人脸跟踪算法的研究。
基于SVM的化合物致突变性分类预测系统的研究与实现
这是一篇关于化合物致突变性,机器学习,Adaboost,SVM,特征选择的论文, 主要内容为随着科技的进步,越来越多的药物被研发出来对抗各种疾病,而药物研发的过程需要花费大量的物力、人力,且研发周期长。药物研发的整个过程中需要考虑该药物的ADMET(吸收,分布,代谢,排泄,毒性)五个特性,其中药物毒性中的致突变性与癌症密切相关。在药物研发的最后阶段动物人体试验阶段,会对药物的对人体的致突变型进行测试,而在这个阶段往往有很多药物的致突变性实验结果会因为对动物或者人体损害太大而被放弃研发,这样便浪费了之前各个阶段的资金投入。近年来,计算机技术中的模式识别技术迅速发展,被应用到社会上的各个领域,生物信息和药物研发也是模式识别的一个重要研究方向。本系统的主要功能是利用机器学习算法对化合物的致突变性进行预测分类,通过分类模型对化合物致突变性相关的化合物特征进行分析。系统提供大量的化合物以及化合物的特征属性作为分类模型的训练集,其中包括各研究机构对该化合物致突变性研究的结果。系统为用户提供化合物特征计算、特征选择、数据清洗、分类模型建立、化合物致突变性预测、结果分析、结果文件保存等功能。研究人员可以根据预测结果来分析影响化合物致突变性的关键特征。系统使用Java语言开发,使用的Spring MVC框架进行系统架构,使用MySQL数据库进行化合物特征和个人信息等数据的存储,实现了数据处理模块、预测分类模块、结果分析模块、系统管理模块和个人信息模块。在数据处理模块中,系统根据化合物的SMILES序列计算出化合物的1446纬化合物特征描述符并对特征数据进行缺失值处理和规范化等操作,再使用信息增益、CFS和Relief等特征选择算法来对特征进行降维处理。在预测分类模块中,系统采用支持向量机算法模型再使用Adaboost算法对支持向量机模型进行迭代提升,从而提高系统的预测准度。经过各种交叉验证和独立测试集验证,系统能够较为准确的预测化合物的致突变性,精确度达到83.5%。在功能上和性能上都能满足用户的需求,达到预期研究效果。
基于用户复购行为的个性化电影推荐算法研究
这是一篇关于协同过滤,用户相似度,逻辑回归,深度学习,Adaboost的论文, 主要内容为随着信息技术的发展,推荐系统因为其给用户带来的便捷性,而越来越受到研究人员的关注。但是现存的推荐算法,在提取数据特征,特征向量编码等方面存在着诸多问。针对以上若干问,本文广泛参考了当前主流推荐算法,并分析他们的优势和不足,分别利用逻辑回归提出了一种融合用户偏好的协同过滤算法,一种深度学习神经网络与Adaboost相结合的推荐算法,用于实现不同类型数据集的推荐功能。本文主要研究内容如下:(1)针对传统协同过滤存在的隐藏特征利用不足的问,本文提取了用户对相同类别项目的评分次数作为特征。使用用户的历史评分信息构建基于皮尔逊相似度的用户相似度,使用用户特征向量构造关于用户属性的余弦相似度,最后将两种相似度进行混合。此外,本文使用对类别的平均评分降低计算皮尔逊相似度时使用的评分矩阵的稀疏性;提出特征缩小指数降低特定列对用户特征相似度的影响;提出基于杰卡德的动态相似度混合代替线性相似度混合;最后,使用逻辑回归对用户的项目偏好倾向作出预测,使用评分放大指数来对模型预测出的评分进行分数修正。(2)针对大数据量的数据集,本文选择使用深度神经网络进行数据拟合。但是神经网络具有对大数据集的良好拟合能力的同时,也具有不稳定性,如有可能造成局部最优解等。Adaboost可以将若干个弱学习器通过一定的方式组合起来,最终形成一个性能良好的强学习器,提升预测的准确度。针对神经网络的缺点,本文将深度神经网络与Adaboost结合起来,将深度神经网络作为Adaboost的基学习器。既可以发挥Adaboost的优点,也可以避免深度神经网络训练不稳定的缺点。针对项目类别特征向量稀疏性过的问,本文使用词向量对类别特征编码进行优化,使用一个单独的神经网络将项目类别编码转换为稠密向量,然后输入Adaboost的神经网络之中,有效降低了向量的稀疏性。针对激励函数tanh存在的梯度弥散问,本文使用Leaky Relu函数对其进行优化,既可以实现非线性的要求,又可以实现梯度的微小更新。将所提的两种推荐算法与几种效果良好的算法进行对比实,对实的结果进行分析,结果显示基于用户复购行为的协同过滤推荐算法的平均绝对误差约为0.705,与原始的基于用户的协同过滤算法相比,误差降低了约1.4%,而基于神经网络的Adaboost推荐算法的误差降低到0.686左右,明显优于其他算法,也验证了所提推荐算法的优越性。
基于用户复购行为的个性化电影推荐算法研究
这是一篇关于协同过滤,用户相似度,逻辑回归,深度学习,Adaboost的论文, 主要内容为随着信息技术的发展,推荐系统因为其给用户带来的便捷性,而越来越受到研究人员的关注。但是现存的推荐算法,在提取数据特征,特征向量编码等方面存在着诸多问。针对以上若干问,本文广泛参考了当前主流推荐算法,并分析他们的优势和不足,分别利用逻辑回归提出了一种融合用户偏好的协同过滤算法,一种深度学习神经网络与Adaboost相结合的推荐算法,用于实现不同类型数据集的推荐功能。本文主要研究内容如下:(1)针对传统协同过滤存在的隐藏特征利用不足的问,本文提取了用户对相同类别项目的评分次数作为特征。使用用户的历史评分信息构建基于皮尔逊相似度的用户相似度,使用用户特征向量构造关于用户属性的余弦相似度,最后将两种相似度进行混合。此外,本文使用对类别的平均评分降低计算皮尔逊相似度时使用的评分矩阵的稀疏性;提出特征缩小指数降低特定列对用户特征相似度的影响;提出基于杰卡德的动态相似度混合代替线性相似度混合;最后,使用逻辑回归对用户的项目偏好倾向作出预测,使用评分放大指数来对模型预测出的评分进行分数修正。(2)针对大数据量的数据集,本文选择使用深度神经网络进行数据拟合。但是神经网络具有对大数据集的良好拟合能力的同时,也具有不稳定性,如有可能造成局部最优解等。Adaboost可以将若干个弱学习器通过一定的方式组合起来,最终形成一个性能良好的强学习器,提升预测的准确度。针对神经网络的缺点,本文将深度神经网络与Adaboost结合起来,将深度神经网络作为Adaboost的基学习器。既可以发挥Adaboost的优点,也可以避免深度神经网络训练不稳定的缺点。针对项目类别特征向量稀疏性过的问,本文使用词向量对类别特征编码进行优化,使用一个单独的神经网络将项目类别编码转换为稠密向量,然后输入Adaboost的神经网络之中,有效降低了向量的稀疏性。针对激励函数tanh存在的梯度弥散问,本文使用Leaky Relu函数对其进行优化,既可以实现非线性的要求,又可以实现梯度的微小更新。将所提的两种推荐算法与几种效果良好的算法进行对比实,对实的结果进行分析,结果显示基于用户复购行为的协同过滤推荐算法的平均绝对误差约为0.705,与原始的基于用户的协同过滤算法相比,误差降低了约1.4%,而基于神经网络的Adaboost推荐算法的误差降低到0.686左右,明显优于其他算法,也验证了所提推荐算法的优越性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/53080.html