网购评论是真是假?文本挖掘告诉你

刚刚过去的双11、双12网络购物节中,无数网友在各个电商网站的促销大旗下开启了买买买模式。不过,当你在网上选购商品时,同类的商品成千上万,哪些因素会影响你选购某件商品呢?商品评论一定是一个重要的参考吧。一般我们总会看看历史销量高不高,用户评论好不好,然后再去下单。

然而各位一定也有所耳闻,买的不如卖的精,刷单的、刷评论的始终横行网上,没准你看到的评论就是卖家自己刷出来的。事实上,许多精明的淘宝卖家会在双十一等网购高峰期售卖“爆款”,“干一票就撤”,这正是虚假评论的温床。有时我们选购商品,经常会发现许多条看起来十分夸张的评论,如某女鞋的商品评论:

“超级好看的鞋,随便搭配衣服就觉得自己像女神,又不磨脚,站一天都不会累。下次还来买,赶快上新款哦!”

“有史以来最满意的鞋,妈妈看了说是真皮的,卖家态度又很好,发货超快,诚信卖家,特别满意的一次购物!”

连续几百几千条“真情实感”的好评这样刷下来,恐怕会有许多顾客被洗脑:这个商品销量真高,评论也不错,那就买这家吧!结果网上的爆款买回家却变成了废品。我们买家真是绝对的信息弱势方,卖家给出的描述真假尚且不知,刷好评又让人防不胜防。那么,如何才能识别刷单评论呢?我们在此介绍一种借助文本挖掘模型的破解之道。

首先要解决数据来源问题,可以从网站上批量下载这些评论,也就是爬虫。目前有两种方法,一种是编程,可以使用python、java等编程语言去编写爬虫程序;还有一种是使用成熟爬虫软件,可以利用界面操作来爬虫。笔者决定使用免费的gooseeker软件来做,这个软件是Firefox浏览器的插件,避免了很多网站动态渲染不好分析的问题,它借助了浏览器的功能,只要在浏览器上看到的元素就可以方便地下载。该软件提供了详细的教程和用户社区,可以指导用户一步步设置抓取内容、抓取路线、连续动作、同类型网页的重复抓取,大家可以自行学习使用。

笔者最终抓取了四款同类型的鞋子的评论数据,包括会员名、商品描述、购买日期、购买型号、评论日期、评论文本等,共计5000多条数据。我们特意选取了具有刷单倾向的商品,可以看出,其中许多评论日期连续、会员名相似、买家等级较低;经过人眼识别,刷单评论占比约30%。我们意在使用这些数据去构建刷单评论识别模型,然后可以用这里得出来的规则去识别其它鞋类商品的刷单评论。


SASEnterprise Miner 13.2是一款大家熟知的数据挖掘工具,它可以针对大型数据进行分析,并根据分析结果建立精确的预测和描述模型,因此为我们所选用,不过使用其他软件也是相同的分析思路。

我们把先前获取的5000条评论一分为二,其中70%作为训练样本,30%作为验证样本。首先,用文本解析将训练样本中的评论文本内容拆词,在拆词时可以选择忽略缺乏实际意义的代词、感叹词、介词、连词,忽略数字与标点符号。以上拆词过程相当于把非结构化数据转成了结构化数据,以前的一段文本如今可以用若干列来表示,每列代表一个词,如果文本中出现了该词该列取值为1,否则取值为0。

现在我们还不能直接拿它来建模,通过上图我们可以发现很多词只出现在少部分文章中,可以使用文本过滤器节点来去除词频很低的词。

在文本过滤器中可以设置最小文档数,指定排除小于该文档出现数目的词条,同时也要排除像“就”、“这”、“是”、“有”这样词频高却意义不大的词。除此之外,还可以进行同义词处理,我们可以手动添加同义词,也可以导入外部的同义词库。比如,“暖和”与“保暖”是同义词,“好看”与“漂亮”可以互相替代……

在软件中还可以查看词与词之间的链接关系:

接下来,我们可以使用文本规则生成器节点来建模,发现哪些词组组合与刷单有直接的关系:

我们将训练样本中的真实评论设置为0(蓝色),刷单虚假好评设置为1(红色)。上图中可以看出,提到“暖和”(包括同义词“保暖”)这样的词时,评论极可能是真实的;而写着“鞋子很时尚哦”“做工精细,还会再买”而没有提到暖和与否的,则多半是虚假好评。

说到这里,你可能会好奇:为什么“暖和”这样一个普通的词,倒成了真假评论的试金石?

我们不妨回想一下自己作为普通买家的购物经历:在收到货品并试用之后,通常只会简单描述一下自己的使用感受,这些感受一定。而水军则不然,他们从来没有真正收到商品,更谈不上试穿啦,为了完成业务指标,只好按照卖家提供的商品描述,尽量从质量、物流、服务态度甚至搭配等多方面强调商品本身的特性。从我们所做的案例来讲,“暖和”自然属于亲身感受,而“真皮”“做工”之类,恐怕不是普通买家最想反馈的性质。

那么这个模型的总体效果如何呢?我们可以用累积提升度这个指标来评价:

我们还留下了30%的验证样本,现在它们可以现身来验证成果了。请看上图中的粉红色曲线:如果用这个模型去对评论进行打分,按照疑似为虚假评论(“1”)的概率去排名,取前5%的评论时,提升度为3倍;我们已知虚假评论约占总体的30%,也就是说,概率排名前5%的评论中有九成都是刷的,从而证明我们的模型相当精准地捕捉了刷单评论。

最后,我们要为卖家说句公道话:淘宝刷单恶性竞争严重,完全不刷好评的店家恐怕不多,不能说有刷评论的店就完全不能下手,90%刷单的商品实在骇人听闻,10%刷单的店则或许质量尚可接受。这也进一步说明了我们的模型的作用:判断商品的刷单比例,比逐条判断评论是否虚假更加实用。

如今网络水军也在持续进化中,写出的评论越来越真情实感、具有极强的误导性,单凭肉眼分辨既浪费时间、又易被迷惑;但虚假评论可以推陈出新,我们的模型更可以随时跟进“学习”。如果将本文中的方法进行推广,则可以形成一个捕捉评论——文本解析——建立模型——判断虚假评论比例的标准过程,这样的方法无疑相当具有实用性。

原文发布时间为:2016-01-12

时间: 2024-07-31 14:55:32

网购评论是真是假?文本挖掘告诉你的相关文章

美股评论:苹果不会告诉你的十件事

MarketWatch撰稿人福特莱尔(QUENTIN FOTTRELL)选取了苹果的第一人称口吻,道出了苹果一些重大的弱点,成功的诀窍,以及目前的关键性挑战.以下即福特莱尔的评论文章全文: "我们已经没什么主意了." 苹果的iPhone 6发布会吸引投资者群体那么重大的关注,其实原因再简单不过了--在苹果(AAPL)的营收当中,手机占据了一半以上的份额.换个角度来阐释,首席执行官库克(Tim Cook)想要支撑住这支股票的价格,也必须高度依赖iPhone."在相当时间之内,该

消费者网购连遭删单B2C网站重销售轻服务

消费者购买遭接连删单 近日,记者在个人微博上,收到了网名为"飞啊飞啊"的读者孟先生发来的投诉.孟先生反映,其在2010年11月25日及11月26日两天时间内连续在两家知名的B2C网站---京东商城与新蛋网上购物,却接连遇到了网站的无理由"删单".在拍下商品后,订单被离奇清空,导致购物不成,还险些造成钱财上的损失. 孟先生认为,虽然"删单"涉及的金额很小,但是接连两次失败的网购经历却让他对B2C交易产生了质疑-- 京东商城: 付款成功遭"

76.1%受访者认为“口碑”可信度降低会让网购失去重要参照

差评为何神秘失踪 删差评成流水线式作业 漫画:刘道伟 在网购领域,口碑评价一直是消费者购物的重要依据,如今这个信用体系却频遭破坏.前不久,杭州市公安局联合淘宝网对外宣布,破获全国首例"恶意差评师"案.恶意差评,是指买家.同行竞争者等评价人用给予中.差评的方式,向网店谋取财物或其他不当利益.在"恶意差评师"扰乱口碑评价真实性的同时,一些商家为伪造"好评"也是花样百出. 近日,中国青年报社会调查中心通过民意中国网和新浪网对2120人进行的一项调查显示

网购奢侈品谁验真伪:电商支持专柜验货成空话

中介交易 SEO诊断 淘宝客 云主机 技术大厅 国外打假,国内网站中枪.此前有报道称,法国抓获制造假冒爱马仕包袋的国际犯罪团伙,假货流向亚洲.之后,爱马仕CEO称,网售爱马仕假货高达八成. 那么,网购奢侈品,还靠谱吗?记者注意到,国内奢侈品代购网站均会表明"支持专柜验货",而大多数奢侈品品牌则表示,不提供专柜验货服务.也就是说,网购奢侈品是真是假,事实上是得不到结论的.业内人士则认为,只喊打假而不验真伪,背后反映的是奢侈品的傲慢营销. ■ 事件回顾 八成网售爱马仕是假货 日前,法国国家

微博营销事件背后的真与假

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 昨天登录我微博的时候看到有一条微博@了我,我就打开看了一下,是一个公司搞一个免费赠送卡券的活动,我打开领取了卡券后发现这个卡券没有对应的商品,难道是我领错了?后来经过仔细的发现,原来这个卡券是适用于实体店消费的,我XX的个去,明明写的是网店消费卡券,即时购买,3天后到期,怎么就成了到实体店去消费,小网人曾经也在微博上发过让网友们领取卡券到网店

电商水军刷评论可罚50万元

摘要: 电商虚构交易.虚标成交量.虚假评论以及乱吆喝清仓价.甩卖价,拟最高处以违法所得10倍的罚款:没有违法所得的,最高罚款50万元.国家工商总局昨天就<侵害消费者权益行为处罚 电商虚构交易.虚标成交量.虚假评论以及乱吆喝"清仓价"."甩卖价",拟最高处以违法所得10倍的罚款:没有违法所得的,最高罚款50万元.国家工商总局昨天就<侵害消费者权益行为处罚办法(征求意见稿)>公开征求意见.10月4日前,社会公众可反馈意见. 不能乱吆喝跳楼价 "

数据仓库的一些理解(原创)

概述 数据仓库概念创始人W.H.Inmon在<建立数据仓库>一书中对数据仓库的定义是:数据仓库就是面向主题的.集成的.相对稳定的.随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程.数据仓库中的数据面向主题,与传统数据库面向应用相对应. 主题导向(Subject-Oriented) 主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域.有别于一般OLTP系统,数据仓库的资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称

央视《新闻调查》:为什么阿里巴巴呼吁“像治理酒驾一样打假”

治理中国的假货问题到底有多难?6月10日央视金牌调查栏目<新闻调查>详细揭示了消费者在网购维权中遭遇的诸多困境,呼吁平台.工商.质检.公安.品牌方等全社会联动起来,积极响应马云的公开呼吁:"像抓酒驾一样打假". 在西安经营手机店的姜先生,在淘宝上一家网店买了一把促销的飞利浦剃须刀,使用一个多月后,剃须刀坏了,他去飞利浦维修中心维修才发现是假货,这让他很生气. 消费者姜先生(左) 官方维修店: 不对消费者个人出具鉴定报告 姜先生首先来到西安飞利浦官方维修中心,希望由品牌方出具

腾讯电商的匕首要钱还是资源

舞长刀厚重费力,伤口浅.耍匕首灵活刚猛,捅得深.京东早明白怎么耍匕首捅淘宝了.现在腾讯也懂了. 一.长刀换匕首 三个月前,跟腾讯电商平台部总经理顾思斌(teddy)吃饭.他所在的电商独立子公司(ECC)搬到离腾讯总部大厦较远的一个地方独立办公,荒凉.清静.去附近一个"能待客的饭馆"走了十分鐘.有点创业的感觉.他说,"腾讯电商终于摸到一条路". 转折点源自对数据的分析. 每当腾讯用其巨大的流量做推广,都会给被推广的电商带去用户和销售额.但当推广一断掉,如潮涌来的用户和