欢迎访问陕西师范大学学报(自然科学版)官方网站!
旅游高质量发展研究

基于在线评论与深度学习的旅游目的地推荐模型

  • 谭鸿博 ,
  • 苏甜 ,
  • 张思盈 ,
  • 荣幸 ,
  • 孙伊琳 ,
  • 矫琪 ,
  • 林知浩 ,
  • 郑天翔 , *
展开
  • 暨南大学 深圳校区,广东 深圳 518053
* 郑天翔,男,博士,副教授,硕士生导师,主要研究方向为旅游大数据分析与处理。E-mail:

Office editor: 程琴娟

收稿日期: 2023-10-23

  网络出版日期: 2025-04-22

基金资助

暨南大学深圳校区学科创新发展“启航”基金项目(JNSZQH2302)

国家级大学生创新创业训练计划项目(202410559009)

A destination recommendation system based on online reviews and deep learning

  • TAN Hongbo ,
  • SU Tian ,
  • ZHANG Siying ,
  • RONG Xing ,
  • SUN Yilin ,
  • JIAO Qi ,
  • LIN Zhihao ,
  • ZHENG Tianxiang , *
Expand
  • Shenzhen Campus, Jinan University, Shenzhen 518053, Guangdong, China

Received date: 2023-10-23

  Online published: 2025-04-22

摘要

近年来,旅游社交媒体平台上的在线评论数据被广泛应用于旅游大数据分析研究中,而在目的地推荐应用方面仍有待深入。使用Python编程语言,通过网络爬虫在携程旅行网上收集了239个中国5A级旅游景区的评论数据,并利用Embedding和BERT等自然语言处理和深度学习技术,构建了一个旅游目的地推荐模型;通过收集到的57 360条评论数据对模型进行训练和验证,最终在14 340条测试数据上得到78%左右的正确率。实验结果表明,借助其他旅游者的切身经历和对旅游目的地的形象感知,可以提高潜在旅游者找到理想目的地的效率,有助于旅游者规划旅游行程的第一步。研究成果扩充了在线评论数据的研究范畴,同时为旅游者在旅游咨询问题上提供了新的解决思路和技术支撑。

本文引用格式

谭鸿博 , 苏甜 , 张思盈 , 荣幸 , 孙伊琳 , 矫琪 , 林知浩 , 郑天翔 . 基于在线评论与深度学习的旅游目的地推荐模型[J]. 陕西师范大学学报(自然科学版), 2025 , 53(2) : 101 -113 . DOI: 10.15983/j.cnki.jsnu.2025102

Abstract

Though online reviews on social media platforms have been widely used in tourism research as data analytical sources in recent years, how they can be applied to destination recommendation needs further investigation.The review data of 239 5A scenic spots in China was retrieved from ctrip.com by Python programming and web-crawling technology. Natural language processing and deep learning technologies including BERT (Bidirectional Encoder Representations from Transformers) and word embedding were then imported to build a destination recommendation system for tourist destinations. The model was trained and validated on a dataset containing 57 360 reviews, with a classification accuracy of around 78% reached on 14 340 pieces of test data. Experimental results show that, with the aid of other tourists’ travel experiences and image perception, the proposed model can facilitate potential tourists in finding their ideal destinations to explore the first step of itinerary planning. The findings of this study extend the research scope of online reviews within tourism and hospitality and provide new insights into pre-trip travel counseling.

旅游行程规划在整个旅游活动中占据着重要地位[1],科学的规划不仅能提高旅游者的出游效率,还能提升旅游者的出游体验[2]。旅游目的地是旅游活动和行程规划的关键,通常关系到其他旅游活动的产生。一方面,不少旅游者在做行程规划时,会针对性地进行与目的地相关的服务咨询和信息搜索[3],并在这一过程中快速获取所需信息[4],在线旅游信息搜索已经成为旅游者行程规划和决策过程的重要组成部分[5-6];另一方面,互联网技术的革新使得社交媒体蓬勃发展,给旅游业带来了巨大变革,个人即时分享在互联网交互平台(如online travel agency, OTA)上不断涌现。这些用户生成内容(user generated content, UGC)是旅游者结束旅游后在社交媒体平台发布的切身感受和经历,是他们对目的地形象的真实感知[7]。这些游后的UGC数据有助于塑造潜在旅游者内心未知的目的地形象,且能够调节其游前的预期[8],对旅游者的出行决策和服务咨询具有重要的参考价值[9]
国内外关于构建旅游者目的地推荐模型的研究大致可分为三类[4,10]:第一类是“个性化推荐”型,通常考虑旅游者的偏好或约束[11],进而生成兴趣点或行程组合[12-13];第二类是“预测”型,通常涉及目的地关键词或短语,然后根据某种相似性提供预测结果,例如对目的地是否喜欢[13]或感兴趣[14]、不同区域[15]和不同时间[16]的目的地推荐等;第三类是“检索”型,与第二类类似,但要求关键词精确匹配,一般用于有明确目的的查找。
服务咨询和信息搜索是一个动态且复杂的过程,某些搜索引擎(例如百度和Google)能提供更智能化的结果,却难以满足旅游者的特殊需求[4,17],这让旅游者难以获得满意的搜索体验[18]。此外,拥有庞大、复杂数据的通用搜索引擎,对用户关键词查询结果的排序往往与官方网站的营销策略和排名规则有关,因此系统难以向用户返回并呈现客观、合理的结果。针对目的地推荐这一特殊领域,一种运行在中小数据集上[19]的专业型模型[4]应运而生,其能在一定程度上解决旅游者出游规划的困境,帮助旅游者找到“梦想之地”。
鉴于目的地推荐的研究有待扩充和深化,本研究借助目的地UGC数据这一集中型的数据来源,以及深度学习这一专业型的人工智能方法,试图提出一个预测型的旅游目的地推荐模型,以期丰富UGC应用的研究范畴,提高旅游者在游前进行信息搜索的效率,为旅游咨询问题提供新的解决思路和技术支撑。

1 研究方法和数据来源

1.1 整体思路

本研究通过“输入评论或描述,输出景区的标签”来尝试构建预测型的旅游者目的地推荐模型。其关键是基于在线评论的UGC数据集构造“属性-目的地”的映射机制。在机器学习领域,已知评论反求其景区归属,是一个多元分类的神经网络预测模型。为此,本研究首先借助Python编程语言爬取社交媒体平台或在线旅游代理平台上的景区和相关评论数据,然后引入深度学习领域的BERT(bidirectional encoder representations from transformers)语言模型[21]和词向量嵌入(word embedding)等自然语言处理技术[22]构建旅游目的地推荐模型,最后对该模型进行实证分析和模型评估。整体框架如图1所示。
图1 本文研究整体框架

Fig.1 Research framework of this study

1.2 数据集来源

本研究采用2023年9月文化和旅游部官网公布的318家5A级旅游景区作为目的地集合,并把携程旅行网(www.ctrip.com,简称携程网)作为数据采集的平台。将每个景区在携程网上的在线评论,作为UGC数据集。数据采集时间为2023年9月12日。
考虑到神经网络预测模型的正确率,训练集中的每一个类别(目的地景区)样本数量尽量不与其他类别相差太远,这样既能保证数据量的充足也能确保不同类别之间的数据均衡[23]。参照前人研究[23-24],本文限定每个类别的样本数量为300。此外,我们对每个景区的评论数据做以下必要的预处理:首先按照发表时间进行顺序排列,然后去除无效的评论,包括“很好”“为景区点赞”等不含实质内容的评论。特别地,对于字数(不含标点)不足20个字的评论[25],我们采用人工判断的方式进一步筛选。预处理后,等于或多于300条有效评论的景区被纳入下一步实证研究,且只保留前300条评论;少于300条有效评论的景区则被排除。最终共有239个景区作为目的地集合(景区名录略),这239个景区的评论数据共计71 700条。

1.3 模型构建

1.3.1 词嵌入的向量表示

在基于深度神经网络的自然语言处理任务中,一般会将输入的文本语句切分成字词,输出一个词向量作为该文本的表示和后续语言模型的输入。其技术核心是将每个字或者词表示为一个固定维度的向量,使得相似的字或词在向量空间中较近,进而能够捕捉它们之间的语义关系[26]
经统计,数据集评论长度的均值为158个字,因此对每条评论,我们只截取前128个字,以满足下文BERT-128分类模型的要求。事实上,我们分别对保留256和512个字的数据预处理方案也进行了模型测试,发现BERT-256和BERT-512两个模型的分类效果与BERT-128相差不大,而BERT-128无疑在运行时间和内存空间的使用上更有优势。

1.3.2 基于BERT的分类模型

本研究采用BERT语言模型来构建神经网络分类预测模型。该模型在文本分类领域的表现十分优秀[27],凭借其预训练参数,仅需微调就在众多自然语言处理任务中取得惊人的效果[28]。BERT模型通过“预训练-微调”两个过程来实现[21]。模型的整体架构和具体实现参见图23
图2 基于在线评论和深度学习的旅游目的地推荐模型整体架构

Fig.2 Architecture of tourism destination recommendation model based on online reviews and deep learning

图3 BERT模型的具体结构与实现

Fig.3 Description of the proposed BERT model’s structure and implementation

1.4 模型评估

本研究将原始数据集按6∶2∶2的比例随机划分为训练集、验证集和测试集[22],各集合包含的评论数据分别为43 020、14 340和14 340条。其中,训练集用于训练模型的参数,验证集用于选出效果最佳的模型参数,测试集用于检验模型的泛化能力。
本研究还沿用机器学习中常用的指标来评估所构建多元分类模型的性能[23,29 -31],包括正确率(accuracy)、查准率(precision)、查全率(recall)和F1值(F1-measure)。正确率是整体指标,是考虑所有分类中正确预测的样本数占总预测样本数的比值。查准率是局部指标,是考虑某个分类中正确预测的正样本数占所有预测为正样本数的比值,数值越高表示误判率越低。查全率是局部指标,是考虑某个分类中正确预测的正样本数占真实正样本数的比值,数值越高表示漏判率越低。F1值是查准率和查全率的调和平均值,即同时考虑查准率和查全率的综合指标。此外,本文参考前人研究[23],在正确率这个指标上细分为Top1-正确率和Top5-正确率。其中,Top1-正确率取预测概率(置信度)最大的那一个景区作为最终结果,Top5-正确率则取概率从大到小排列后的前5个景区作为最终结果序列,只要真实景区包含在序列中即视为预测正确,否则视为预测错误。

2 研究结果

本研究共使用了14 340条评论来进行模型测试,获得Top1-正确率为78.19%,Top5-正确率为86.56%,查准率为80.91%,查全率为78.19%,F1值为0.79。从各项指标来看,模型性能表现较好。

2.1 不同维度结果分析

下面分别从地理分区和景区类型两个维度对测试集运行结果作进一步分析。其中,地理分区维度包含华北、华东、华南、华中、西南、东北和西北7个类别,景区类型维度包含产业融合、历史文化、现代游乐、自然生态4个类别(景区类型以文化和旅游部资源开发司联合中国科学院地理科学与资源研究所旅游研究与规划设计中心发布的《中国旅游景区发展报告(2019—2020)》为划分依据)。同时,为了保证每个景区仅属于一个类别,对于存在多种可能的景区,我们将其划分到最具代表性的类别中。

2.1.1 地理分区维度

表1是模型在地理分区维度上的测试结果,华中、西北和西南地区景区的预测效果较为理想。其中,华中地区Top1-正确率和Top5-正确率相对较高,均值分别为81.95%和88.33%,表明模型较容易从华中地区的景区样本集里正确识别出各个景区;西北地区的查准率最高,表明模型对西北地区的景区样本误判较少;西南地区的查全率最高,表明模型对西南地区的景区样本漏判较少。由此可以推断,游客对这3个地区景区的形象感知较为鲜明,使得模型表现良好。
表1 地理分区维度下测试结果

Tab.1 Results based on geographical division

地理分区 景区数量/个 Top1-正确率/% Top5-正确率/% 查全率/% 查准率/% F1
均值 标准差 均值 标准差
华北 27 76.94 86.18 75.93 18.36 80.69 17.37 0.77
华东 80 80.61 86.25 79.37 11.59 80.29 15.51 0.79
华南 21 76.73 88.83 74.36 12.12 77.38 16.79 0.75
华中 29 81.95 88.33 80.11 11.95 81.04 14.24 0.80
西南 39 80.15 88.86 80.28 9.71 80.38 15.71 0.79
东北 12 76.88 82.69 75.96 11.12 84.82 12.25 0.79
西北 31 79.92 87.97 78.29 9.24 86.55 11.77 0.82
为了更细致直观地展示模型在各个景区下分类预测的效果,我们把239个景区在地理分区维度下的模型表现通过散点图描绘出来,如图4所示。图中,横轴和纵轴分别为查准率和查全率。同时,为了让图中各子图便于比较,我们把横轴和纵轴的数值范围统一设置为[0.4,1.05]。需要说明的是,由于某些数据点重合(数值完全一样),图中的点数会比实际景区数量少。
图4 地理分区维度下七大地区景区的查准率和查全率分布

Fig.4 Precision-recall pair of each destination based on their geographical division

华中地区(图4d)和西南地区(图4e)的景区分布主要集中于右上角,这些景区的查准率和查全率均较高,说明华中地区和西南地区的景区之间游客感知形象差异较大。以华中地区为例,140号景区(河南开封清明上河园)特色为“公园”[32],而同在华中的176号景区(湖北恩施大峡谷)以“峡谷”见长,景区的游客感知形象存在较大差异。又如西南地区,25号景区(四川九寨沟)以“自然风光”著称,30号景区(四川都江堰景区)却以“历史文化”留名于世[33],两者存在明显差异;而同为历史文化的景区,5号景区(云南丽江古城)与24号景区(四川乐山大佛)特征也不尽相同,前者侧重于“历史文化名城”,后者侧重于“佛教文化”,景区形象差异明显。因此,这两个地区模型表现良好。
西北地区(图4g)和东北地区(图4f)的景区分布大多处于图中的右侧,这是查准率相对较高的区域,但同时其部分景区查全率偏低,说明虽然模型不容易把其他景区的评论判断为目标景区(误判少),但会把本属于目标景区的评论判断为其他景区(漏判多)。这或许是因为某些景区的形象与东北地区整体形象并不十分相符,例如编号为237的景区(黑龙江哈尔滨太阳岛风景区)主要以“岛屿”为特征,但“岛屿”更多地代表沿海沿湖等温暖湿润地区[34-35],不易让模型将东北地区与景区关联起来,因此产生错误。
华南地区(图4c)的景区分布位于左侧的点较多,这些是查准率较差的区域,且分布很散(根据表1结果可知其标准差达15%以上),这在一定程度上反映了华南地区各景区之间的差异性较低,导致模型把该地区内其他景区的评论判断为目标景区。如69号景区(广东梅州市雁南飞茶园景区)与166号景区(海南三亚蜈支洲岛)特征相似[36],与该地区其他景区一样,主要以“休闲”[37]为主,故容易引起混淆。
华北地区(图4a)是查准率表现最差的区域,分布较散(根据表1结果可知其标准差大于15%),这说明该地区模型预测与实际感知的差异较大,把本属于目标景区的评论误判为其他景区。究其原因,华北区域历史文化景区[38-40]与佛教圣地[41-42]居多,旅游吸引元素相似,部分景区感知形象不够鲜明。

2.1.2 景区类型维度

表2是模型在景区类型维度上的测试结果。由表2可知,自然生态类景区分类的预测效果最佳,其查全率、F1值均为最高,且查准率较高,在预测准确度方面(即Top1-正确率和Top5-正确率)也处于较高的水平,表明游客对自然生态类景区的形象感知较其他类型景区更为鲜明。而历史文化类景区的查准率在4种景区类型中表现最差(80.90%),这说明历史文化类景区是较易被模型误判的类别,一个较为合理的解释是:近年来现代旅游文化多样性增加,政策导向性逐渐增强,越来越多的历史文化景区开始向现代多元产业的方向发展,使其商业气息过重,文化特色减少,同质化较为严重,因此模型在判断时产生较大的偏差。其中,34号景区(天津古文化街)就是一个典型的例子[43]。此外,产业融合类景区的查全率在4种景区类型中表现最差(73.72%),说明产业融合类景区较易被模型漏判。
表2 景区类型维度下测试结果

Tab.2 Results categorized by resource types

景区类型 景区数量/个 Top1-正确率/% Top5-正确率/% 查全率/% 查准率/% F1
均值 标准差 均值 标准差
产业融合 6 79.51 82.05 73.72 9.55 81.86 10.95 0.77
历史文化 102 80.98 86.99 78.62 12.25 80.90 14.82 0.79
现代游乐 12 79.41 85.58 75.96 14.21 81.96 18.88 0.77
自然生态 119 80.19 87.78 78.83 12.24 81.40 15.85 0.79
图5是239个景区在景区类型维度下的模型表现散点图,可知:
图5 景区类型维度下四大类型景区的查准率和查全率分布

Fig.5 Precision-recall pair of each destination based on their resource types

产业融合类景区(图5a)分布较为集中,主要集中在图右下侧,查准率表现不错,而查全率较低,说明模型的漏判较多,可能是由于部分景区过于注重其商业化和经济效益,过度追求景区多元化发展,使其缺乏统一的产业融合特色而导致的。
现代游乐类景区(图5b)主要分布于图右上侧,其查准率和查全率表现均不错,表明游客对现代游乐类景区的形象感知较其他类型景区更为鲜明。我们认为,这是由于该类景区大多拥有独特的现代建筑和基础设施,如1号景区(上海东方明珠)构建的是都市国际现代化特色[44],46号景区(山东台儿庄古城)夜晚的灯光展览和烟火表演等活动极大地满足了游客游乐观光的目的,使游客夜晚的游乐体验幸福指数高于白天[45]。不难发现,这些景区特征都别具一格。
历史文化类(图5c)和自然生态类(图5d)一部分景区分布在右上侧,说明这部分景区查准率和查全率较高;而另一部分景区性能表现分布较分散,标准差较大,这可能是因为这两类景区数量较多,且景区类型内部差异较大,游客感知形象参差不齐。例如,同为历史文化类的5号景区(云南丽江古城)与19号景区(北京故宫博物院),前者游客感知形象特征为“体验”[46],后者则是“旅游吸引物”[39],两者存在较大差异,模型表现良好。又如,同为自然生态类的107号景区(江苏无锡鼋头渚)与127号景区(江西庐山风景名胜区)的游客感知形象特征都以“自然风光”为主,两者特征较为相似,模型表现却不佳。
在平面上(图5c、5d)表现最佳的4个景区分别是162号景区(浙江省绍兴沈园)、206号景区(贵州省镇远古城)、124号景区(江西省古窑民俗博览区)和198号景区(福建省湄洲岛)。其中,前3个景区属于历史文化类,均具有很强烈的文化独特性,如162号景区是以“陆游”这一历史人物为核心主题,206号景区则具有鲜明的“侗族”特征,124号景区的“景德镇陶瓷”是样本集独有的,这些特点使得这3个景区容易跟其他景区相区分;198号景区则属于自然生态类,该景区既拥有优越的自然海滩环境,也有一部分妈祖文化的传承遗迹[47],这使其从众多景区中脱颖而出,容易被模型辨识。而处于图5c、5d下方,即查全率表现最差的两个景区分别是属于历史文化类的17号景区(北京恭王府)和属于自然生态类的127号景区(江西省庐山风景名胜区)。17号景区表现不佳的原因可能是历史内涵与其他景区存在一定的重合,易被混淆,例如该景区虽然拥有“和珅王府”特点,但其评论内容主要以“清朝”“王府”等为关键词,易与19号景区(北京故宫博物院)混淆。而127号景区与126号景区(江西庐山西海景区)都以湖光山色为主,因此预测效果欠佳。

2.2 景区预测效果展示——代表性评论

为了更直观展示模型在景区层面的分类预测效果,我们随机选取9个景区,并人工收集置信度较高的2~3条测试集评论,来检视模型预测结果较好的评论是否足以代表该景区。
结果显示,所选取的数条代表性评论能够很好地反映景区的独有特征。例如,在评论编号1A(“挺不错的!主要是带孩子去玩!离家近方便,陵墓不错。感慨古人的智慧!用了40年把一座山打通,好玩的地方不少,建议自驾游。推荐一下玻璃栈道!”)和1B(“能对四百年的西东汉文化有个粗略的感性认识。景点较分散,规模不大。服务态度很好,尤其电子解说器很实用”)中,分别出现了“陵墓”和“汉文化”等关键词,模型能将它们自动与146号景区(河南省永城市芒砀山旅游景区)关联起来。又如,评论4A(“风景优美,浮桥和吊桥很多。像是迷你版的张家界。大家都建议从南门走到北门,我们跟团是从北门走到南门,发现南门出发的游客很多,北门出发的反而比较少,感觉清静一些。坐了电瓶车,没坐索道,一共花了将近三小时,挺快的”)包含“浮桥和吊桥”和“北门走到南门”,而评论4B(“夏天出游好去处!行走在崇山峻岭深沟峡谷之间,伴着溪流潺潺,整个人浸润在草木的芳香之中,舒畅极了!沿途景色宜人,还有吊桥浮桥等,集娱乐健身一体。携程购票既便宜又便捷,南门北门游客中心三处都可以取票。建议南门入,一路沿溪而下,渐入佳境,不累人,特别是有小孩老人的。另外山里天气多变,尽量带上伞或雨衣”)包含“吊桥浮桥”和“南门北门”,都能被模型精准识别,且不受关键词在评论中的位置或语序的影响。再者,由于使用了词嵌入向量表示,即便换个说法,模型也能通过词向量来捕获到语义相近的关键词,进而实现正确关联。如评论9A(“山上景色挺漂亮的,有湖有一片漂亮的草地,骑马的价格不贵,马骑得最爽的一次,山顶上的抓饭和烤串不错”)中的“草地”和“骑马”与9B(“一路上走过去的,水特别清澈,忍不住想喝一口。山上有毡房,有草原,有马场。感觉到了世外桃源”)中的“草原”和“马场”,意思比较接近,说明模型具有良好的泛化性,不易受不同用语或用词的影响。

2.3 评论预测效果验证——模型准确性

为了进一步凸显在评论层面的模型预测准确性,我们招募了30位爱好旅游的教师和学生,对随机选取的8条评论进行验证。验证方法如下:首先向志愿者提供239个候选景区,接着要求志愿者根据每条评论文本选出3个符合评论描述的景区,最后统计景区得票数,并把得票数最高的5个目的地作为人工判断结果,并将其与模型输出结果进行对比。
结果显示,模型输出结果和人工判断结果大体相近,且模型在对这8条评论进行预测时基本实现了第一命中,Top1-正确率达90%,而人工Top1-正确率为80%,这从侧面验证了本文模型的有效性和可靠性。在6号评论(“置身山水之间,美景陶冶情怀,烦恼忧愁不再,惬意舒心开颜;畅游名胜古迹,抒发兴亡之叹,眼前俗世纷扰,再也不会心烦。古镇很大,猪蹄特色,味道不错”)中,人工判断大多选择了115号景区(江苏苏州同里古镇),但实际选择的景区为207号景区(贵州青岩古镇),这可能是因为115号景区为国内十大古镇,且排序靠前,因此大部分志愿者受到主观印象的影响,在选择时产生了偏差。

2.4 模型应用场景

在目的地规划时,旅游者可能不知道具体的目的地名称,但是对即将到来的旅游体验有一定期望。本文所提出的模型能把旅游者所向往的目的地描述作为输入,以最贴近的目的地作为输出,在此我们列出4种可能的应用场景,如表3所示。
表3 模型应用场景举例

Tab.3 Examples of possible scenarios where the proposed model could be applied

应用场景 模型输入 模型输出
景区编号1 景区编号2 景区编号3 景区编号4 景区编号5
体会感受 “想要享受爬山的乐趣,欣赏祖国大好河山” 184 33 92 175 210
活动节目 “希望能进行亲子活动,让孩子在玩中学” 108 75 49 118 184
主题兴趣 “我对独特的建筑感兴趣” 79 92 153 21 75
季节天气 “我想在冰天雪地里赏雪” 28 49 92 85 21

注:模型输出的景区编号按置信度由大到小排列。

其一,旅游者输入期望的体会感受,例如“想要享受爬山的乐趣,欣赏祖国大好河山”,模型输出结果分别为184号(湖南省常德桃花源)、33号(四川黄龙风景名胜区)、92号(明十三陵)、175号(湖北宜昌清江画廊)和210号(辽宁千山)这5个景区。其中湖南省常德桃花源和四川黄龙风景名胜区有山有水,风景如画,不仅能满足游客想要爬山的乐趣,还能满足游客欣赏祖国大好河山的愿望。
其二,模型应用场景可扩展到活动推荐上,旅游者输入感兴趣的活动或节目,例如“希望能进行亲子活动,让孩子在玩中学”,模型输出结果分别为108号(江苏淹城春秋乐园)、75号(广东长鹿旅游休博园)、49号(山东威海华夏城)、118号(江苏苏州沙家浜风景区)和184号(湖南省常德桃花源)。其中江苏淹城春秋乐园取材春秋时期的政治、军事、经济、文化等方面,以情景体验的形式,将春秋文化意境下的静态观赏型项目、互动演艺型项目和体验式游乐项目相结合,让亲子在游览玩乐的同时学习知识,而集吃、住、玩、赏、娱、购于一体的广东长鹿旅游休博园,则是休闲娱乐、旅游度假、户外拓展、科普教育的首选之地。
其三,对于有特定主题旅游需求的旅游者,模型也有用武之地。例如,一位艺术爱好者输入“我对独特的建筑感兴趣”,模型输出结果分别为79号(广西桂林独秀峰王城景区)、92号(明十三陵)、153号(浙江宁波天一阁博物院)、21号(吉林伪满皇宫博物院)和75号(广东长鹿旅游休博园)。其中广西桂林独秀峰王城景区内的靖江王城是我国目前保存最为完好的明藩王府第,现为全国重点文物保护单位;而明十三陵无论从建筑结构还是建筑艺术上来看,都价值颇高。
其四,季节和天气条件也是目的地规划的重要因素,旅游者可以输入与天气相关的描述,例如“我想在冰天雪地里赏雪”,模型输出结果分别为28号(四川甘孜州海螺沟景区)、49号(山东威海华夏城)、92号(明十三陵)、85号(新疆可可托海景区)和21号(吉林伪满皇宫博物院)。其中四川甘孜州海螺沟有冰雪琉璃的灵秀之地之称,而雪后的山东威海华夏城则是美不胜收。
以上几个场景表明,本文所提出的“属性-目的地”映射机制可以作为一个类似模糊查询的功能,可向旅游者推荐符合他们预期的目的地,从而帮助他们实现更加精准的旅游规划。

3 结论与建议

本研究借助网络大数据、词嵌入技术和BERT深度学习技术,针对目的地推荐问题做了全新的尝试,主要贡献如下:1)根据深度神经网络思想,提出了一个预测型的旅游目的地推荐模型,并通过对抓取到的239个5A级旅游景区的在线评论进行了机器阅读和理解,初步检验了模型效果;2)他人的游后经验分享对旅游者的游前目的地推荐有着非常重要的指引作用,78%左右的平均正确率(Top1)表明“属性-目的地”映射机制的构建是可行的;3)旅游目的地分类预测效果在不同维度下存在差异,从地理分区维度看,华中、西北和西南地区较为理想,向东逐渐减弱,而从景区类型维度看,自然生态类景区的预测效果较佳;4)从预测结果来看,本文提出的模型能媲美人工判断的传统方法,可在海量的评论样本空间中对所属目的地进行快速甄别,充分发挥了UGC数据的价值。
本研究是将网络大数据应用于旅游咨询领域的一次积极有效的尝试。首先,其意义在于不但验证了前人研究发现的“他人经验分享对潜在旅游者行程规划有重要的辅助作用”[48],而且回答了此前研究者未能解决的“如何辅助”的问题[49]。本文借助其他旅游者的切身经历和对旅游目的地形象的感知,所得成果能帮助潜在旅游者在前期快速找到预期目的地,为其解决出行规划的目的地选择问题提供了咨询途径。其次,研究成果有助于弥补旅游者在认知上的不足。某些旅游者在前期行程规划时,脑海中对向往的目的地或许只有模糊的认知,却不能被准确地描述出来,本文提出的模型正好可以准确“告诉”他们梦想或心仪的目的地在哪里。这些发现是对旅游管理学及旅游者行为学现有研究成果的补充,同时也能从一个新的视角为旅游咨询研究提供理论参考和实践依据。再次,本文提供了一种解决当前在线旅游信息过载的方案,能有效降低旅游者行程规划的搜索成本。最后,本文研究成果有助于一些较为冷门的目的地开展线上营销,这为旅游市场增添了新的外推力。事实上,只要该目的地能为游客提供良好的旅游体验,其口碑就能被已到访的游客通过社交媒体平台广泛传播,而借助本文构建的目的地推荐模型,就有可能为未出行的潜在旅游者推送这些冷门但口碑不错的景点,进而提高游客到访的概率。
基于上述发现,本文向旅游景区管理者和OTA平台运营者提出5条实践方面的建议:第一,景区管理者应该依据自身旅游资源的属性,展现其独有的特征,避免与其他同类景区出现较大雷同,以便于模型区分。第二,针对某些类别旅游目的地预测效果较差的情况,例如华北地区和历史文化类景区,旅游管理者可以通过提供折扣或会员奖励积分[50]来寻求全面客观、突出景区特点的评论,激发旅游者在游后分享时的创作热情。第三,根据游客在线评论的关键信息和模型反馈对景区进行精准营销。与目的地投射形象相比,游客感知形象才是真实体验,能对旅游口碑产生较大的影响。经营管理者应重新审视游客提到的旅游体验,并加以改善,避免因过度商业化而破坏游客心中的目的地形象,从而提升旅游目的地的口碑,实现景区的可持续发展。第四,考虑到社交媒体UGC对刺激旅游消费者的敏感性[51]以及在用户旅游行程规划中起到的重要作用,目的地管理者及时关注与目的地相关的社交媒体UGC数据,将一部分预算分配给社交媒体营销[52],从OTA平台提取UGC数据蕴含的丰富信息,并将其加入到旅游需求预测与管理中。第五,他人的游后经验分享对旅游者的游前行程规划有着非常重要的指引作用,OTA平台应努力确保在线评论的可靠性,采用更精确高效的检测算法来过滤具有欺诈性或无效的评论,使得构建的“属性-目的地”映射机制更为有效,提高模型预测的准确度。
本研究虽从一个新的视角为旅游目的地推荐提供了解决途径,但仍有需要进一步完善的地方:第一,本研究依托2023年9月版景区名录展开,使用其中239个中国5A级旅游景区在携程上的在线评论作为研究数据,由于某些景区的样本数量不够,未能涉及所有5A级旅游景区,也没能覆盖非5A旅游景区。此外,本次数据采集来源也仅限于一个主流网站(携程网),没有考虑其他UGC平台,因此在样本的代表性方面存在一定的局限,有待未来进一步拓展。第二,本文所使用的深度学习方法自身存在一定的局限性,例如BERT语言模型作为分类器,参数较多,训练起来较困难,且比较耗时;每次增加新样本来提高模型预测精度时,都需要重新训练一遍模型,不够灵活。第三,当前模型的解释深度不足,需要进一步实证。虽然前文列举了某些目的地与在线评论中的关键词配对情况,但仅是人为判断,无法准确获知哪个关键词促使模型指向该目的地,因而本文未能在实证层面上对在线评论文本进行不同要素角度的分析,这也是造成各目的地预测效果差异的成因和关联。未来可以考虑通过使用GPT(generative pre-trained transformer)等预训练的大语言模型(large language model, LLMs),生成“目的地-关键词”关联关系解释,从而提高指向关系的可解释性。另外,通过使用常见旅游路线数据集训练图神经网络模型或Transformer等模型[53],得到旅游路线预测器,结合本文从评论文本推荐获得的目的地,来预测并推荐旅游者的旅游路线,从而提供较优的路线规划。
[1]
TAN W. From fantasy to reality: a study of pre-trip planning from the perspective of destination image attributes and temporal psychological distance[J]. Service Business, 2018, 12(1): 65-84.

[2]
常亮, 曹玉婷, 孙文平, 等. 旅游推荐系统研究综述[J]. 计算机科学, 2017, 44(10): 1-6.

DOI

CHANG L, CAO Y T, SUN W P, et al. Review on tourism recommendation system[J]. Computer Science, 2017, 44(10):1-6.

DOI

[3]
CHENG M, ANDERSON C K. Search engine consumer journeys: exploring and segmenting click-through behaviors[J]. Cornell Hospitality Quarterly, 2021, 62(2): 198-214.

[4]
FESENMAIER D R, W BER K W, WERTHNER H. Destination recommendation systems: behavioural foundations and applications[M]. Europe: CABI, 2006.

[5]
杨敏, 李君轶, 徐雪. ICTs视角下的旅游流和旅游者时空行为研究进展[J]. 陕西师范大学学报(自然科学版), 2020, 48(4): 46-55.

YANG M, LI J Y, XU X. The progress of tourist flow and tourist spatio-temporal behavior based on ICTs[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2020, 48(4): 46-55.

[6]
龙鑫, 马耀峰. 西安市城镇居民短期旅游行为特征及决策因素分析[J]. 陕西师范大学学报(自然科学版), 2008, 36(5): 76-81.

LONG X, MA Y F. Xi’an city inhabitant’s short-term traveling behavior character and decision affection factors analysis[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2008, 36(5): 76-81.

[7]
BRAMWELL B, RAWDING L. Tourism marketing images of industrial cities[J]. Annals of Tourism Research, 1996, 23(1): 201-221.

[8]
PANTANO E, PRIPORAS C V, STYLOS N. ‘You will like it!’ using open data to predict tourists’ response to a tourist attraction[J]. Tourism Management, 2017, 60: 430-438.

[9]
刘春济, 刘民英. 国内游客行前信息搜索与目的地满意度评价研究:以黄山风景区为例[J]. 人文地理, 2012, 27(6): 137-144.

LIU C J, LIU M Y. Study on pre-trip travel information search and satisfaction at destination from domestic tourists:a case study of Huangshan Scenic District[J]. Human Geography, 2012, 27(6): 137-144.

[10]
HRUSCHKA H, MAZANEC J. Computer-assisted travel counseling[J]. Annals of Tourism Research, 1990, 17(2): 208-227.

[11]
DELIC A, NEIDHARDT J, NGUYEN T N, et al. An observational user study for group recommender systems in the tourism domain[J]. Information Technology & Tourism, 2018, 19(1/2/3/4): 87-116.

[12]
STAMATELATOS G, DROSATOS G, GYFTOPOULOS S, et al. Point-of-interest lists and their potential in recommendation systems[J]. Information Technology & Tourism, 2021, 23(2):209-239.

[13]
ZHENG W, LIAO Z, LIN Z. Navigating through the complex transport system:a heuristic approach for city tourism recommendation[J]. Tourism Management, 2020, 81: 104162.

[14]
JAIN P K, PAMULA R, YEKUN E A. A multi-label ensemble predicting model to service recommendation from social media contents[J]. Journal of Supercomputing, 2022, 78(4): 5203-5220.

[15]
SOHRABI B, VANANI I R, NASIRI N, et al. A predictive model of tourist destinations based on tourists’ comments and interests using text analytics[J]. Tourism Management Perspectives, 2020, 35: 100710.

[16]
KEERTHI R, LAKSHMI P. Predictive analysis for modeling travel decision making[C]//2nd IEEE International Conference on Green Computing and Internet of Things (ICGCIoT). Halifax:IEEE,2018: 44-49.

[17]
赵德平, 王新阳, 张宇超. 一种自适应旅游信息垂直搜索算法的设计与实现[J]. 沈阳建筑大学学报(自然科学版), 2016, 32(2): 370-375.

ZHAO D P, WANG X Y, ZHANG Y C. The design and implementation of an adaptive search algorithm for tourism information[J]. Journal of Shenyang Jianzhu University (Natural Science), 2016, 32(2): 370-375.

[18]
PAN B, FESENMAIER D R. Online information search: vacation planning process[J]. Annals of Tourism Research, 2006, 33(3): 809-832.

[19]
PAN B, LITVIN S W, O’DONNELL T E. Understanding accommodation search query formulation: the first step in putting ‘heads in beds[J]. Journal of Vacation Marketing, 2007, 13(4).

[20]
刘文斌, 周朴雄. SNS与垂直旅游搜索引擎合作模式研究[J]. 华南理工大学学报(社会科学版), 2013, 15(5): 39-43.

LIU W B, ZHOU P X. The cooperation pattern of vertical tourism search engine and SNS[J]. Journal of South China University of Technology (Social Science Edition), 2013, 15(5): 39-43.

[21]
DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL].[2023-10-02]. https://arxiv.org/abs/1810.04805.

[22]
CHOLLET F. Deep learning with Python[M]. New York: Manning Publications Co., 2018.

[23]
KANG Y, CHO N, YOON J, et al. Transfer learning of a deep learning model for exploring tourists’ urban image using geotagged photos[J]. ISPRS International Journal of Geo-Information, 2021, 10(3): 137.

[24]
CHO N, KANG Y, YOON J, et al. Classifying tourists’ photos and exploring tourism destination image using a deep learning model[J]. Journal of Quality Assurance in Hospitality & Tourism, 2022, 23(6): 1480-1508.

[25]
刘逸, 孟令坤, 李想, 等. 旅游无效评论特征研究初探[J]. 旅游论坛, 2021, 14(3): 31-43.

LIU Y, MENG L K, LI X, et al. On the characteristics of tourism review spam[J]. Tourism Forum, 2021, 14(3): 31-43.

[26]
RONG X. word2vec parameter learning explained[EB/OL].[2023-10-02]. https://arxiv.org/abs/1411.2738.

[27]
ADHIKARI A, RAM A, TANG R, et al. DocBERT: BERT for document classification[EB/OL]. [2023-10-02]. https://arxiv.org/abs/1904.08398.

[28]
刘欢, 张智雄, 王宇飞. BERT模型的主要优化改进方法研究综述[J]. 数据分析与知识发现, 2021, 5(1): 3-15.

DOI

LIU H, ZHANG Z X, WANG Y F. A review on main optimization methods of BERT[J]. Data Analysis and Knowledge Discovery, 2021, 5(1): 3-15.

DOI

[29]
CHANG Y, KU C, CHEN C. Using deep learning and visual analytics to explore hotel reviews and responses[J]. Tourism Management, 2020, 80: 104129.

[30]
LI X, LI H, PAN B, et al. Machine learning in Internet search query selection for tourism forecasting[J]. Journal of Travel Research, 2021, 60(6): 1213-1231.

[31]
SÁNCHEZ-MEDINA A J, ELEAZAR C. Using machine learning and big data for efficient forecasting of hotel booking cancellations[J]. International Journal of Hospitality Management, 2020, 89: 102546.

[32]
索志辉, 梁留科, 苏小燕, 等. 游客体验视角下开封旅游目的地形象研究:基于网络评论的方法[J]. 地域研究与开发, 2019, 38(2): 102-105.

SUO Z H, LIANG L K, SU X Y, et al. Visitor’s experience and tourism destination image in Kaifeng city: based on internet comment text[J]. Areal Research and Development, 2019, 38(2): 102-105.

[33]
陶长江, 程道品, 王颖梅. 文化遗产地旅游形象策划及实证研究:基于形象感知偏差测量视角[J]. 重庆师范大学学报(自然科学版), 2013, 30(5):120-127.

TAO C J, CHENG D P, WANG Y M. The tourism image planning model and empirical research of the cultural heritage based on the measurement of the image perception deviation[J]. Journal of Chongqing Normal University(Natural Science), 2013, 30(5): 120-127.

[34]
刘晓丽, 王淼. 涠洲岛旅游目的地投射形象与感知形象对比研究[J/OL]. 海洋湖沼通报[2024-03-06]. http://link.cnki.net/urlid/37.1141.p.20240322.1048.004.

LIU X L, WANG M. Comparative research on projected image and perceived image of Weizhou Island tourism destination[J/OL]. Transactions of Oceanology and LimnologyTransactions of Oceanology and Limnology[2024-03-06]. http://link.cnki.net/urlid/37.1141.p.20240322.1048.004.

[35]
杨智威, 陈颖彪, 吴志峰, 等. 粤港澳大湾区城市热岛空间格局及影响因子多元建模[J]. 资源科学, 2019, 41(6): 1154-1166.

DOI

YANG Z W, CHEN Y B, WU Z F, et al. Spatial pattern of urban heat island and multivariate modeling of impact factors in the Guangdong-Hong Kong-Macao Greater Bay area[J]. Resources Science, 2019, 41(6): 1154-1166.

DOI

[36]
刘昭云. 梅州市观光休闲农业发展现状分析及对策研究[J]. 安徽农业科学, 2009, 37(33): 16597-16599.

LIU Z Y. Research on the development status and countermeasures of leisure and sightseeing agriculture in Meizhou city[J]. Journal of Anhui Agricultural Sciences, 2009, 37(33): 16597-16599.

[37]
关阳, 张徐, 苏振. 基于Python数据可视化的国内外游客桂林旅游感知对比分析[J]. 资源开发与市场, 2021, 37(11):1380-1387,1408.

GUAN Y, ZHANG X, SU Z. Comparative analysis of tourism perception between domestic and foreign tourists based on Python data visualization abstract[J]. Resource Development & Market, 2021, 37(11): 1380-1387,1408.

[38]
邓宁, 蘧浪浪. 基于视频机器分析的目的地形象差异对比:以北京YouTube视频为例[J]. 旅游学刊, 2022, 37(8): 70-85.

DENG N, QU L L. Comparison of destination images based on video analysis through machine learning:a case study on YouTube videos of Beijing[J]. Tourism Tribune, 2022, 37(8): 70-85.

[39]
春雨童, 王传生, 计卫星, 等. 基于网络文本分析的重游意向旅游形象感知研究:以厦门鼓浪屿风景名胜区及北京故宫博物院为例[J]. 地域研究与开发, 2021, 40(4): 96-101.

CHUN Y T, WANG C S, JI W X, et al. Research on tourist perception of revisit intentions based on network text analysis: taking gulangyu scenic spot in Xiamen and Beijing Palace Museum as examples[J]. Areal Research and Development, 2021, 40(4): 96-101.

[40]
赵鹏宇, 冯文勇, 张慧, 等. 世界文化景观遗产型旅游目的地形象感知研究:以五台山为例[J]. 中南林业科技大学学报(社会科学版), 2015, 9(4): 44-49.

ZHAO P Y, FENG W Y, ZHANG H, et al. Research on tourism destination image perception of word culture heritage:a case study of Mountain Wutai[J]. Journal of Central South University of Forestry & Technology (Social Sciences), 2015, 9(4): 44-49.

[41]
刘智兴, 马耀峰, 高楠, 等. 山岳型旅游目的地形象感知研究:以五台山风景名胜区为例[J]. 山地学报, 2013, 31(3): 370-376.

LIU Z X, MA Y F, GAO N, et al. A research on tourism destination image perception of mountain resorts:a case study of Mountain Wutai scenery area in China[J]. Journal of Mountain Science, 2013, 31(3): 370-376.

[42]
李婷, 武刚, 梁丽芳, 等. 基于网络评论的五台山旅游目的地游后形象感知研究[J]. 干旱区资源与环境, 2021, 35(8): 192-198.

LI T, WU G, LIANG L F, et al. Post-visit image perception of Mount Wutai tourism destination based on online comments[J]. Journal of Arid Land Resources and Environment, 2021, 35(8): 192-198.

[43]
桂慕梅. 场景、民俗及认同:天津古文化街年货市场研究[J]. 云南民族大学学报(哲学社会科学版), 2015, 32(3):83-92.

GUI M M. Scenes, folk-customs and cultural identity: a case study of the Spring Festival market in Tianjin Old Culture Street[J]. Journal of Yunnan Minzu University(Social Sciences), 2015, 32(3): 83-92.

[44]
赵德芳. 魔都印象:基于文本分析的上海城市旅游情感形象研究[J]. 资源开发与市场, 2024, 40(3): 462-471.

ZHAO D F. The impression of magic city: a text-based study on tourism affective image of Shanghai[J]. Resource Development & Market, 2024, 40(3):462-471.

[45]
孙凤芝, 单怡, 李宜倍. 时空视角下台儿庄古城游客幸福感关系研究:以难忘旅游体验为中介[J]. 干旱区资源与环境, 2023, 37(4):201-208.

SUN F Z, SHAN Y, LI Y B. Exploring tourist’s well-being in Taierzhuang old city from the spatio-temporal perspective[J]. Journal of Arid Land Resources and Environment, 2023, 37(4): 201-208.

[46]
和泽海, 陶玉国, 张红霞. 基于多源异构评论的旅游目的地形象及其影响因素:情感分析视角[J]. 世界地理研究, 2024.

HE Z H, TAO Y G, ZHANG H X. Tourism destination image and its influencing factors based on multi-source heterogeneous reviews: perspective of sentiment analysis[J]. World Regional Studies, 2024.

[47]
王雨文, 骆培聪, 刘莹楠, 等. 基于网络点评的湄洲岛游客满意度研究[J]. 福建师范大学学报(自然科学版), 2018, 34(5):83-92.

WANG Y W, LUO P C, LIU Y N, et al. The study on tourist satisfaction of Meizhou Island based on network comments[J]. Journal of Fujian Normal University (Natural Science Edition), 2018, 34(5): 83-92.

[48]
CHOI S, LEHTO X Y, OLEARY J T. What does the consumer want from a DMO website? A study of US and Canadian tourists’ perspectives[J]. International Journal of Tourism Research, 2007, 9(2): 59-72.

[49]
EKIZ E, KHOO LATTIMORE C, MEMARZADEH F. Air the anger: investigating online complaints on luxury hotels[J]. Journal of Hospitality and Tourism Technology, 2012,3: 96-106.

[50]
HU X B, YANG Y. What makes online reviews helpful in tourism and hospitality?A bare-bones meta-analysis[J]. Journal of Hospitality Marketing & Management, 2021, 30(2): 139-158.

[51]
吴晋峰, 李馥利, 熊冰. 城市职业女性旅游行为调查研究:以西安市为例[J]. 陕西师范大学学报(自然科学版), 2008, 36(4): 98-102.

WU J F, LI F L, XIONG B. Investigation of the tourist behavior of female professionals:case study with Xi’an[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2008, 36(4): 98-102.

[52]
HU M M, LI H Y, SONG H Y, et al. Tourism demand forecasting using tourist-generated online review data[J]. Tourism Management, 2022, 90: 104490.

[53]
HO N L, LIM K H. POIBERT:a transformer-based model for the tour recommendation problem[C]//IEEE International Conference on Big Data(Big Data). Osaka: IEEE, 2022: 5925-5933.

文章导航

/