基于“城市画像”与“用户画像”的个性化旅游推荐系统实践
这是一篇关于城市画像,用户画像,文本挖掘,旅游推荐,城市形象的论文, 主要内容为随着经济社会的发展,旅游成为人们日常生活中重要的组成部分。无论是周末的出行还是节假日的旅游,人们往往在下一次旅游出行目的地以及相应路线安排上投入了大量时间精力,期望收获性价比高、体验感好的旅行体验。而网上五花八门的旅游攻略和琳琅满目的旅游商品消耗了用户大量的时间,大大提升了用户的决策成本,降低了用户的旅游前体验。于是如何更好地利用网上用户过往的游览路线、评论、图片等多维度信息,经过加工处理、提炼整合,为现有用户服务呢?本文提出了一种解决方案。本文基于“带着微博去旅行”这一平台的用户数据,选取了北京、上海、成都、杭州、西安、重庆、大连、香港共8个目标城市,从无到有实现了一个基于“用户画像”与“城市画像”的个性化旅游推荐系统。首先,本文对爬取到的原始数据进行了加工处理,使之成为有价值的能够被系统所利用的信息,这一阶段实现的是“用户画像”以及“城市画像”。构建用户画像,第一步是通过将用户的基本属性数据标签化,得到“年龄、性别、星座、身份属性”等人口标签,另外基于语义匹配规则提炼出“摄影爱好者/美食爱好者/时尚达人”等族群标签,第二步是根据用户在某一景点发表的评论文本以及景点定位数据,得到用户的旅游类型标签,进一步丰富用户画像。城市画像的构建主要围绕两个维度展开:第一个维度是根据用户微博的配图得到8个城市的图片集,通过在百度EasyDL平台上训练图片分类模型,预测8个城市的图片在现代化元素、传统元素、自然风景、美食等9个标签上的分布,实现图像维度的城市画像。第二个维度是从用户文本出发,按城市聚合根据TextRank关键词提取技术得到每个城市在名词、形容词、动词上的TOP30关键词,实现文本维度的城市画像。按景点聚合得到每个景点下的评论文本,分别获取景点关键词,基于语义匹配规则可得到景点与不同旅游类型的映射关系,通过遍历文本得到各景点在各旅游类型上的热度分布,实现景点画像,再汇总统计每个城市在各旅游类型上的分布,得到旅游类型维度的城市画像。在这个过程中,本文提出了几种计算城市、景点、用户内部相似度的参考维度,并结合欧式距离、Jaccard距离以及余弦相似度等相似度计算方法进行了实现,具体有:1.根据图片标签分布、文本关键词以及该城市景点的旅游类型分布来计算城市之间的相似度;2.根据用户的人口标签、族群标签与旅游类型分布计算用户之间的相似度;3.根据景点关键词或在各旅游类型上热度分布计算景点间的相似度;其次,本文基于以上工作搭建了一个简单的个性化旅游推荐系统,即利用信息推荐算法实现用户与旅游系统的交互,通过获取用户的旅游需求以及个人的外显和内隐的行为数据,然后根据旅游的约束条件,为用户直接推荐最合适的旅游景点,帮助用户快速决策。具体方法有基于内存的协同过滤推荐,基于内容的推荐,基于人口统计学的推荐,基于标签的推荐以及基于知识的推荐,此外还有基于兴趣关键词搜索的推荐。本文详细地说明了各种推荐方法的推荐设计、应用效果、局限性以及改进方向。但由于本文清洗后有效用户数据量有限,导致用户-景点矩阵非常稀疏,很难通过交叉验证等方法实现推荐指标的度量,但本文展示了一种如何充分利用用户各维度的历史旅行数据,搭建个性化旅游推荐系统的思路以及相应的技术实现,并围绕实现目标、优势与应用价值以及应用局限性进行了比较分析。在应用与展望部分,本文提出基于个性化旅游推荐系统,搭建一个小型的智能交互式旅游推荐公众平台,为解决实际旅游推荐场景提供可行性。最后,本文利用城市画像、用户画像对城市形象进行分析,从旅游推荐延伸到旅游目的地的城市形象建设,基于用户在有影响力的社交媒体平台上发表的内容,挖掘用户对城市形象的感知,并针对旅游城市形象建设以及旅游开发提出了相关建议。
基于社会媒体的旅游推荐系统研究与实现
这是一篇关于旅游推荐,社会媒体,Word2vec,LDA的论文, 主要内容为随着信息技术的不断发展,旅游业也在不断地进行创新突破,“旅游+信息化”成为一个备受关注的热点,人们可以通过互联网获取到海量的旅游信息,通过这些信息来帮助用户进行计划的制定以及决策。社会媒体既是一个用户可以自由分享自己的意见和观点的平台,却也会出现信息过载的问题。为了使用户可以在海量信息中快速准确地找到自己想要的内容,个性化推荐系统是一种非常有效的解决方案。目前旅游景点推荐系统仍存在数据稀疏问题,为了更好地进行旅游景点的推荐,本文针对现有推荐算法进行优化与改进,提出一种基于Word2vec和LDA模型的旅游景点推荐模型,并通过设计实现的旅游景点推荐原型系统,将本文提出的推荐模型应用于该原型系统中。本文的主要内容如下:(1)介绍了当前个性化旅游推荐算法的国内外研究现状以及存在的问题,由此引入了基于社会媒体的旅游景点推荐算法,然后详细介绍了基于协同过滤的推荐算法、基于内容的推荐算法以及混合推荐算法的原理以及优缺点,对本文用到的LDA主题模型与Word2vec词向量模型进行了研究与分析。(2)由于LDA是以全局的形式来预测文档中的词汇、Word2vec以局部的形式来预测文档中的词汇的特殊性,本文提出一种基于Word2vec和LDA模型的旅游景点推荐模型。该推荐模型的核心思想是通过LDA主题模型将景点评论文本转换为景点-主题-词矩阵,再通过结合Word2vec词向量模型转换为景点-主题-词向量矩阵,通过上述矩阵生成用户/景点向量模型,基于用户/景点向量模型预测用户对未知景点的评分来产生推荐结果。另外,还对基于Word2vec和LDA的推荐模型进行了拓展研究。通过在爬取的去哪儿网的旅游景点评论数据集上与其他的推荐算法做实验对比,实验结果表明,本文提出的推荐模型在评分预测准确率上有所提升。(3)对旅游景点推荐原型系统进行需求分析,采用B/S架构,将本文提出的基于Word2vec和LDA的推荐模型应用到系统中,设计并实现了一个由用户管理模块、评论管理模块、景点推荐模块等组成的个性化旅游景点推荐系统,最后对系统主要功能模块进行了测试以及界面展示。
基于“城市画像”与“用户画像”的个性化旅游推荐系统实践
这是一篇关于城市画像,用户画像,文本挖掘,旅游推荐,城市形象的论文, 主要内容为随着经济社会的发展,旅游成为人们日常生活中重要的组成部分。无论是周末的出行还是节假日的旅游,人们往往在下一次旅游出行目的地以及相应路线安排上投入了大量时间精力,期望收获性价比高、体验感好的旅行体验。而网上五花八门的旅游攻略和琳琅满目的旅游商品消耗了用户大量的时间,大大提升了用户的决策成本,降低了用户的旅游前体验。于是如何更好地利用网上用户过往的游览路线、评论、图片等多维度信息,经过加工处理、提炼整合,为现有用户服务呢?本文提出了一种解决方案。本文基于“带着微博去旅行”这一平台的用户数据,选取了北京、上海、成都、杭州、西安、重庆、大连、香港共8个目标城市,从无到有实现了一个基于“用户画像”与“城市画像”的个性化旅游推荐系统。首先,本文对爬取到的原始数据进行了加工处理,使之成为有价值的能够被系统所利用的信息,这一阶段实现的是“用户画像”以及“城市画像”。构建用户画像,第一步是通过将用户的基本属性数据标签化,得到“年龄、性别、星座、身份属性”等人口标签,另外基于语义匹配规则提炼出“摄影爱好者/美食爱好者/时尚达人”等族群标签,第二步是根据用户在某一景点发表的评论文本以及景点定位数据,得到用户的旅游类型标签,进一步丰富用户画像。城市画像的构建主要围绕两个维度展开:第一个维度是根据用户微博的配图得到8个城市的图片集,通过在百度EasyDL平台上训练图片分类模型,预测8个城市的图片在现代化元素、传统元素、自然风景、美食等9个标签上的分布,实现图像维度的城市画像。第二个维度是从用户文本出发,按城市聚合根据TextRank关键词提取技术得到每个城市在名词、形容词、动词上的TOP30关键词,实现文本维度的城市画像。按景点聚合得到每个景点下的评论文本,分别获取景点关键词,基于语义匹配规则可得到景点与不同旅游类型的映射关系,通过遍历文本得到各景点在各旅游类型上的热度分布,实现景点画像,再汇总统计每个城市在各旅游类型上的分布,得到旅游类型维度的城市画像。在这个过程中,本文提出了几种计算城市、景点、用户内部相似度的参考维度,并结合欧式距离、Jaccard距离以及余弦相似度等相似度计算方法进行了实现,具体有:1.根据图片标签分布、文本关键词以及该城市景点的旅游类型分布来计算城市之间的相似度;2.根据用户的人口标签、族群标签与旅游类型分布计算用户之间的相似度;3.根据景点关键词或在各旅游类型上热度分布计算景点间的相似度;其次,本文基于以上工作搭建了一个简单的个性化旅游推荐系统,即利用信息推荐算法实现用户与旅游系统的交互,通过获取用户的旅游需求以及个人的外显和内隐的行为数据,然后根据旅游的约束条件,为用户直接推荐最合适的旅游景点,帮助用户快速决策。具体方法有基于内存的协同过滤推荐,基于内容的推荐,基于人口统计学的推荐,基于标签的推荐以及基于知识的推荐,此外还有基于兴趣关键词搜索的推荐。本文详细地说明了各种推荐方法的推荐设计、应用效果、局限性以及改进方向。但由于本文清洗后有效用户数据量有限,导致用户-景点矩阵非常稀疏,很难通过交叉验证等方法实现推荐指标的度量,但本文展示了一种如何充分利用用户各维度的历史旅行数据,搭建个性化旅游推荐系统的思路以及相应的技术实现,并围绕实现目标、优势与应用价值以及应用局限性进行了比较分析。在应用与展望部分,本文提出基于个性化旅游推荐系统,搭建一个小型的智能交互式旅游推荐公众平台,为解决实际旅游推荐场景提供可行性。最后,本文利用城市画像、用户画像对城市形象进行分析,从旅游推荐延伸到旅游目的地的城市形象建设,基于用户在有影响力的社交媒体平台上发表的内容,挖掘用户对城市形象的感知,并针对旅游城市形象建设以及旅游开发提出了相关建议。
基于知识图谱和用户动态偏好的旅游推荐算法研究
这是一篇关于知识图谱,旅游推荐,LSTM,知识表示,知识学习的论文, 主要内容为旅游推荐中存在着对用户偏好和旅游产品复杂信息更细粒度的描述的难题,以及在线旅游信息推荐中用户数据稀疏和兴趣多变的问题。并且在中文知识图谱领域中,还没有公开的旅游景点知识图谱。然而,不同于以往的推荐,旅游推荐数据存在一定的稀缺性,无论是用户交互数据还是景点属性信息,都影响着推荐的效果。基于知识图的旅游推荐,可以利用本身的结构优势和丰富的信息作为推荐系统的辅助提供数据。为了解决以上问题,本文主要研究内容如下:(1)旅游领域知识图谱的构建,设计并实现了旅游知识图谱的构建方法。将知识图谱概念引入到旅游推荐领域,对旅游领域知识特征进行分析,实现了领域内实体和关系的划分,完成了旅游领域本体库的构建。然后抽取了旅游领域的实体和关系,并且完成了基于关系数据库的知识图谱存储。最后分析了关系数据库进行知识存储的利弊,利用Neo4j改进了知识的存储方式。(2)针对在线旅游信息推荐中存在的数据稀疏和用户兴趣多变的问题,本研究提出一种在线旅游信息推荐模型(Knowledge Graph Embedding Travel Recommendation,KGETR)。该模型包括了信息嵌入和兴趣传播两个核心模块。信息嵌入模块利用知识图嵌入,对旅游信息和用户属性进行统一的向量表示;兴趣传播模块通过基于嵌入和路径结合的兴趣传播,来丰富用户和旅游产品的属性特征。此外,本文还引入时间属性构造知识图谱四元组,准确把握用户兴趣。结果表明,该模型在准确率、召回率和F1分别提升了6.72%、13.8%、29.03%。(3)针对用户复杂的长期偏好和旅游产品复杂信息的更细粒度的描述的问题,结合用户的长期和短期偏好构建了一种将知识图表示引入推荐系统的神经注意力旅游推荐模型(Long-Short Attention Travel Recommendation,LSATR)。具体来说,LSATR主要分为两个核心模块,即旅游产品编码器和用户编码器。旅游产品编码器是一个多通道、词实体对齐的知识感知卷积神经网络,它融合了旅游产品的语义级和知识级表示,并且将单词和实体视为多个通道,在卷积过程中显式地保持它们的对齐关系。用户编码器采用双向长短期记忆神经网络(Bi-directional Long-Short Term Memory,Bi-LSTM)研究用户的长、短期偏好。为了满足用户不同的兴趣,我们设计了一个注意力模块来动态聚合用户关于当前候选旅游产品的历史。在真实的旅游电子商务数据集上进行了大量的实验,证明了LSATR比现有的深度推荐模型取得了实质性的改进。
基于“城市画像”与“用户画像”的个性化旅游推荐系统实践
这是一篇关于城市画像,用户画像,文本挖掘,旅游推荐,城市形象的论文, 主要内容为随着经济社会的发展,旅游成为人们日常生活中重要的组成部分。无论是周末的出行还是节假日的旅游,人们往往在下一次旅游出行目的地以及相应路线安排上投入了大量时间精力,期望收获性价比高、体验感好的旅行体验。而网上五花八门的旅游攻略和琳琅满目的旅游商品消耗了用户大量的时间,大大提升了用户的决策成本,降低了用户的旅游前体验。于是如何更好地利用网上用户过往的游览路线、评论、图片等多维度信息,经过加工处理、提炼整合,为现有用户服务呢?本文提出了一种解决方案。本文基于“带着微博去旅行”这一平台的用户数据,选取了北京、上海、成都、杭州、西安、重庆、大连、香港共8个目标城市,从无到有实现了一个基于“用户画像”与“城市画像”的个性化旅游推荐系统。首先,本文对爬取到的原始数据进行了加工处理,使之成为有价值的能够被系统所利用的信息,这一阶段实现的是“用户画像”以及“城市画像”。构建用户画像,第一步是通过将用户的基本属性数据标签化,得到“年龄、性别、星座、身份属性”等人口标签,另外基于语义匹配规则提炼出“摄影爱好者/美食爱好者/时尚达人”等族群标签,第二步是根据用户在某一景点发表的评论文本以及景点定位数据,得到用户的旅游类型标签,进一步丰富用户画像。城市画像的构建主要围绕两个维度展开:第一个维度是根据用户微博的配图得到8个城市的图片集,通过在百度EasyDL平台上训练图片分类模型,预测8个城市的图片在现代化元素、传统元素、自然风景、美食等9个标签上的分布,实现图像维度的城市画像。第二个维度是从用户文本出发,按城市聚合根据TextRank关键词提取技术得到每个城市在名词、形容词、动词上的TOP30关键词,实现文本维度的城市画像。按景点聚合得到每个景点下的评论文本,分别获取景点关键词,基于语义匹配规则可得到景点与不同旅游类型的映射关系,通过遍历文本得到各景点在各旅游类型上的热度分布,实现景点画像,再汇总统计每个城市在各旅游类型上的分布,得到旅游类型维度的城市画像。在这个过程中,本文提出了几种计算城市、景点、用户内部相似度的参考维度,并结合欧式距离、Jaccard距离以及余弦相似度等相似度计算方法进行了实现,具体有:1.根据图片标签分布、文本关键词以及该城市景点的旅游类型分布来计算城市之间的相似度;2.根据用户的人口标签、族群标签与旅游类型分布计算用户之间的相似度;3.根据景点关键词或在各旅游类型上热度分布计算景点间的相似度;其次,本文基于以上工作搭建了一个简单的个性化旅游推荐系统,即利用信息推荐算法实现用户与旅游系统的交互,通过获取用户的旅游需求以及个人的外显和内隐的行为数据,然后根据旅游的约束条件,为用户直接推荐最合适的旅游景点,帮助用户快速决策。具体方法有基于内存的协同过滤推荐,基于内容的推荐,基于人口统计学的推荐,基于标签的推荐以及基于知识的推荐,此外还有基于兴趣关键词搜索的推荐。本文详细地说明了各种推荐方法的推荐设计、应用效果、局限性以及改进方向。但由于本文清洗后有效用户数据量有限,导致用户-景点矩阵非常稀疏,很难通过交叉验证等方法实现推荐指标的度量,但本文展示了一种如何充分利用用户各维度的历史旅行数据,搭建个性化旅游推荐系统的思路以及相应的技术实现,并围绕实现目标、优势与应用价值以及应用局限性进行了比较分析。在应用与展望部分,本文提出基于个性化旅游推荐系统,搭建一个小型的智能交互式旅游推荐公众平台,为解决实际旅游推荐场景提供可行性。最后,本文利用城市画像、用户画像对城市形象进行分析,从旅游推荐延伸到旅游目的地的城市形象建设,基于用户在有影响力的社交媒体平台上发表的内容,挖掘用户对城市形象的感知,并针对旅游城市形象建设以及旅游开发提出了相关建议。
结合时空数据特征的推荐算法研究
这是一篇关于旅游推荐,时空特征,序列推荐,智能电视的论文, 主要内容为许多推荐应用场景会产生包含空间地理位置坐标的数据,或着带有时间戳、附着时序性的数据,这些数据又与其服务形式息息相关,对于地理位置场景,比如旅游网站,其产品为旅行地点(以及服务),旅行地具有固有的空间属性,即地图经纬度,居民出游常常优先考虑出行距离,并作为首要检索条件在网站搜寻目标,如:去外省还是近郊,国内还是国外?而游客出行历史也会构成带有不同位置属性的轨迹日志,成为独特的数据源。对于时序场景,比如在电商网站上的购物活动,会产生大量的以时间戳为序的浏览和消费日志,当消费者进人网站会话期时,推荐系统开始运作,需要短时间内预测用户接下来想看的商品,而用户兴趣往往体现在浏览活动序列中。在这两个领域的历史数据中,时序和距离不是物品本身属性,而是因为用户与物品的交互活动动态形成的。传统推荐领域对用户和物品的挖掘集中在标签、文本等形式的附加信息上,未充分将这两个特征融合进算法并加以有效利用,但在诸如此类与实体经济相关领域,时间戳和空间位置信息与产品服务形式和质量密切相关,因此,在此些场景下,结合时空数据特征(地理位置特征或时间戳特征)为服务方设计更契合产品的推荐算法至关重要。我们在研究过程中,恰好遇到携程旅游网站和海信智能电视两个独具特色的场景,原始数据分别具有地理位置属性和时间戳属性,针对各自特点,我们分别提出了新的推荐算法。对于旅游推荐,仅仅依靠互联网搜索通常很难满足游客需要的旅游规划,旅游网站或手机应用的后端推荐系统则是解决问题的有效方式。一个好的旅游推荐模型可以更全面地考虑用户的筛选条件,我们的调查表明,当用户选择一个旅游景点时,目的地与用户惯居地的距离常常是一个首先考虑的问题,并且旅行距离通常间接地反映时间和经济成本的影响。在本文旅游推荐工作中,我们首先对真实的携程网站用户旅行数据进行分析,给出合理假设,即每个用户旅游时有一个最偏好的距离区段,然后在贝叶斯模型和概率矩阵分解模型的基础上,提出结合出行距离特征的旅游推荐模型,简记为G-PMF(Probabilistic Matrix Factorization with Geographical Distance Feature)。模型创新点在于:(1)将用户对距离区段的偏好映射为权重,并作为自变量补充到概率矩阵分解的推荐模型中。(2)利用数据离散化技术,将景点与用户常居地之间的距离划分成区段,作为额外信息引入到学习过程。(3)在携程网旅行数据集上进行的实验,结果表明,通过引入出行距离特征,G-PMF的效果与传统模型相比有显著提高。电视机作为客厅的一块屏在电器领域占有重要的市场,而智能电视,使观众可以在单一平台上既可以观看电视直播又可以点播网络内容,目前变得越来流行。研究序列预测是让推荐引擎在用户完成视频观看时提供他接下来将会看的视频列表。我们在科研进程中,获取到海信真实用户日志并对其分析挖掘以解决序列预测问题。类似工作在其他领域序列推荐场景中已逐渐流行,在电商领域的会话推荐(Session based Recommendation)问题上,循环神经网络RNN已经用于捕获序列模式且获得了较的推荐效果。但是,将这种方法原封不动地迁移到智能电视方案中可行性不高,因为智能电视数据集具有不同的特点,例如帐户共享、由时间跨度引起的稀疏性、用户观看行为的不连续性等等。而且从算法本身而言,RNN主要作用是捕获序列统计特征,对用户兴趣的个性化挖掘能力有限。因此,我们结合传统协同过滤开发了一种混合方法来做这种推荐任务,称之为智能电视上的混合序列预测模型(Hybrid Sequence Prediction Model for Smart TV,HSPM)。它包含两个模块,第一个利用并行门控循环神经单元(Parallel Gate Recurrent Unit)结合海报和点击数据对序列进行建模;第二个模块称为时间上下文序列K近邻算法(Time Context Sequence K Nearest Neighbor,TCSKNN),我们考虑到用户在当前时间范围内的选择通常会受到电视推广页面的影响,所以将传统的KNN扩展为对时间敏感的方法,来模拟在线实时推荐情况。我们将两个模块预测结果以加权方式将混合。通过在海信智能电视点播数据集和第三方视频数据集上进行的实验,我们证明了模型与最新的基线模型相比,HR(命中率)和MRR(均值倒数排名)指标上可实现一定的提高。综上所述,我们分别针对具有空间距离特征的旅游目的地推荐场景和具有时时间戳及时序特征的智能电视场景进行了数据挖掘、问题建模、实验分析等工作,分别结合传统协同过滤技术或深度学习模型,提出了针对各自场景特点的推荐算法,并在大规模真实的行业数据集上验证了我们方法的有效性,所做工作对旅游推荐和智能电视领域有较大帮助。
基于Hadoop的乡村休闲旅游推荐系统研究与设计
这是一篇关于旅游推荐,用户权重,组合推荐的论文, 主要内容为近年来,随着乡村休闲旅游的蓬勃发展,互联网上有关乡村休闲旅游的信息数量也在迅速增长。面对大量的旅游产品信息,游客一时无法从中获取对自己有用的部分,带来了信息超载的问题。推荐系统是解决当前乡村休闲旅游领域所面临的信息超载问题的有力方法,具有良好的发展和应用前景,应当在乡村休闲旅游电子商务系统之中得到广泛的应用;然而,相比传统的推荐系统,乡村休闲旅游推荐系统的设计和应用更为复杂,不仅面临着数据稀疏的问题,还应当考虑旅游产品属性、位置信息以及游客评分等诸多因素。面对乡村休闲旅游推荐系统的设计方面存在的困难,在总结前人研究成果的基础上,课题对乡村休闲旅游推荐系统进行了研究和设计,主要内容如下:第一,课题提出了针对乡村休闲旅游产品的游客偏好模型,通过预测游客对旅游产品属性的偏好,判断该产品值得推荐的程度;第二,课题提出了一种用户权重的计算方法,并根据这一方法,针对乡村休闲旅游这一应用领域,综合考虑多种推荐因素,提出了基于用户权重的推荐算法;最后,课题通过实验,验证了课题提出的基于用户权重的推荐算法的性能,并设计了基于Hadoop的乡村休闲旅游推荐系统的系统架构,对其中的运算任务进行了说明。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工坊 ,原文地址:https://bishedaima.com/lunwen/56172.html