基于弹幕情感分析以及用户推荐节目优化策略研究
作者:刘奥运
来源:《现代营销·经营版》2019年第03期
摘 要:弹幕作为视频网站与用户互动的新兴媒介,具有一般评论不可具有的实时互动性。同时弹幕更多是用户基于视频场景的共鸣,富有情绪化。本文尝试利用弹幕的情感分析技术,结合群体智慧,利用协同推荐,更好内容与用户。 关键词:弹幕;互动;情感分析;协同推荐 一、引言
弹幕(barrage),类似于小说中行间彰显的夹批,它是视频中屏间飘过的评论点,是用户在观看视频网站时候所产生的基于视频内容所产生用户评论。大量吐槽评论从屏幕飘过时效果看上去像是飞行射击游戏里的弹幕。
弹幕评论具有一般评论不可具有的实时性,更能准确的具体反应用户在观看视频的即时情感和褒贬评价。
现有的关于弹幕的研究主要集中在文化价值定性的研究上,研究多从弹幕本身的形式和功能入手,研究用户的动机和行为,关于弹幕作为评论的量化分析的研究少有。文本情感分析方面,研究对象的选取主要是商品评论、微博文本等常见文本,对弹幕文本在情感分析方面的关注度尚有不足。对于用户的个性化推荐,主要集中在于收集用户的个人信息,了解用户的偏好选择,并根据用户需求即时的调整推荐内容和服务方式更好满足用户的需求。这样就忽略了群体智慧和结晶,如果能够结合群体智慧,结合人的社会属性,同时挖掘单个用户之前的产生的信息基础之上,使两者有机的结合起来,这样就可以更好,更合理利用大众智慧为用户提供更加合理化的推荐策略。 二、数据处理及研究方法 (一)数据处理和研究方法框架 1.数据来源
首先是弹幕数据的选取,选取的是《爸爸去哪儿》这一综艺节目第四季共13集所有集数的弹幕。
2.选取数据来源理由
龙源期刊网 http://www.qikan.com.cn
(1)全面性(2)唯一性(3)可得性
个人用户评论数据的选取,由于优酷对于个人弹幕用户的数据保护,无法抓取个人的弹幕数据,所以选取的是豆瓣网上两位用户的影视评论数据作为替代。 (二)推荐指数计算
通过对《爸爸去哪儿》第四季弹幕进行特征级别情感分析,主要是通过统计评价对象中正负面信息的数量,进而发现大众对于明星真人秀节目要素的认可度。同时收集个人用户的评论信息,通过对评价对象的词频统计了解该用户收视需求所关注的主要元素。因此,通过统计评价对象的词频数可以发现用户的关注兴趣,利用每个属性占所有词频统计的百分比作为推荐指数的权重wi。
(三)数据处理和操作
使用python在“优酷”视频网站中爬取综艺节目《爸爸去哪兒》(第四季)中所出现弹幕文本数据。
对所得文本数据进行预处理操作:
弹幕短文本:口语化,用词不规范,自称体系。因此需要构建弹幕情感词典。
借鉴郑飏飏等处理弹幕文本的方法,对所得文本数据进行预处理操作:随机抽取弹幕文本10000条,使用分词工具python结巴分词完成弹幕去除停用词,添加自定义词典,进行分词、标注词性等工作。
通过观察弹幕数据,我们从形容词、动词和感叹词中词语选取具有明显情感倾向进入弹幕情感词典,并将其分为正向情感词和负向情感词。
正向情感词:666,可爱,亲和等,负向的情感词,不好看差评等。
从名词中抽取明星真人秀的节目要素,首先参考姜霖,对于一般艺术作品的研究分类,将其分为内容、形式、价值、三大类。
结合丰家喜对于明星真人秀研究,按所得词词义、笔者理解等将其分为服装、广告、后期、情节、人物、剪辑、拍摄,等共计7类节目要素特征。
在弹幕情感词典中,根据正向或负向的情感分类分别对弹幕文本中的每个情感词予以1或-1的分值,根据节目要素词典,将弹幕文本中的相应关键词替换为对应的节目要素,统计节目要素词的正向负向的次数,记为QP表示节目要素正向(Positive)的个数,QN表示节目要素负向(Negative)的个数。通过对弹幕文本的抽取替换处理,将完成赋值的弹幕文本数据按照
龙源期刊网 http://www.qikan.com.cn
节目要素词进行分类,统计次数,通过对统计数据的分析,发现《爸爸去哪儿》弹幕的正面评价多于负面评价,这样符合其在豆瓣平台上的7点多的评分。
同时我们通过网络爬虫采集豆瓣网上两位用户的评论信息进行节目要素特征进行词频统计。我们选取的两位豆瓣用户中“柏邦妮”是知名度较高的业余影评人,共发表评论 307 篇;福根儿,是一名爱好电影的普通用户, 发表了 48 篇电影评论。对于两位用户的评价对象进行词频统计,统计相应的对象以及他们所占的权重Wi。
在对人物评价对象进行词频统计时考虑到真人秀节目主要是该季的明星嘉宾相对较窄,而个人影视人物评价相对较广,通过对分词的词性标记,从名词中抽取人物名称包括演职人员和电影中的人物角色,通过人工筛选并对其进行词频统计构建评价词典。其余评价对象借鉴明星真人秀综艺节目词典进行词频统计。
通过分析结果我们发现柏邦妮和福根儿对于人物都比较关注,而其他评价对象的关注各有所不同。
然后我们将统计出来的权重带入到推荐指数的计算公式中,这样就可以算出整季《爸爸去哪儿》的推荐指数,以及单集的推荐指数。 三、结论
综上结果所述我们发现: 1.人物方面
人物所占比重最高,不论是弹幕内容,还是用户个人影评,说明人物对于明星真人秀的重要性。节目组要重视明星人选,好的明星人选是收视的保障。 2.节目情节方面
我们发现弹幕用户群体负向情感略高于正向情感,说明节目情节设计需要改进。 节目情节设计,最能引起观众情绪波动。而《爸爸去哪儿》经过几季的播放,观众对于嘉宾参与节目情节已经很熟悉,同时基于真人秀节目即时性特点,要最大限度保证节目情节的真实有趣,所以需要对现有的节目情节进行改造和创新,如此一来才能提高观众对节目的正向口碑,有利于节目进一步的传播发展。 3.广告方面
我们发现其正向的情感高于负向情感,这与我们平时所想的有所出入,说明适当而有趣的广告植入能让观众减轻抵触情绪,甚至能引起观众的好评。观众通过发弹幕等形式,无形提高
龙源期刊网 http://www.qikan.com.cn
了商家品牌知名度,明星真人秀节目的运营也需要一定的赞助商支持,这样实现节目方、广告商、观众等的多方共赢局面。
同时我们尝试结合用户的个人发表评论信息,了解用户的关注点,将用户喜欢的内容推荐给用户,减少用户信息检索难度,提高用户的满意度,也增加节目内容播放量和认可度。 参考文献:
[1] 张; 帅,王文韬,周华任,et al.基于扎根理论的弹幕视频网站用户使用行为驱动因素研究[J].情报理论与实践,2018,v.41;No.294(07):121-126.
[2] 陈; 一,曹圣琪,王; 彤.透视弹幕网站与弹幕族:一个青年亚文化的视角[J].青年探索,2013(6):19-24
[3] 杜嘉忠,徐; 健,刘; 颖.网络商品评论的特征-情感词本体构建与情感分析方法研究[J].现代图书情报技术,2014(5):74-82
[4] 张紫琼,叶; 强,李一军.互联网商品评论情感分析研究综述[J].管理科学学报,2010(6):84-96.
[5] 郑飏飏,徐; 健,肖; 卓.情感分析及可视化方法在网络视频弹幕数据分析中的应用[J].现代图书情报技术,2015(11):82-90
[6] 姜; 霖,张麒麟.基于评论情感分析的个性化推荐策略研究——以豆瓣影评为例[J].情报理论与实践,2017(08):103-108.
[7] 丰家喜.明星真人秀节目要素分析[J].人民论坛,2016(2):189-191. 作者简介:
刘奥运,2016级管理科学工程硕士。
因篇幅问题不能全部显示,请点此查看更多更全内容