豆瓣、大众点评上的评价，是如何影响用户种草的-虎嗅网

你有被网红种草坑过吗？不少用户都有过这样的经历，而这从侧面反映出——种草经济需要植根于评价体系，才能更好地生长。那么，什么样的评价体系才能帮助消费者进行有效决策？本文作者做了相应解读，不妨一看。

本文来自微信公众号：人人都是产品经理（ID：woshipm），作者：晓庄，原文标题：《用户种草为何回归评价平台？基于豆瓣、亚马逊、大众点评的深度观察》，题图来自：视觉中国

调研一下：这些年来，你有被网红滤镜下的打卡地坑过吗？

天空之镜、悬崖秋千、粉红沙滩……这些因网红而爆火的景点，吸引了不少人千里迢迢奔赴现场，结果却看了个“满眼寂寞”。

种草经济早已渗透了我们生活的方方面面，比如短视频平台上的网红探店、网红直播等内容，无不刺激着消费者的肾上腺素，让我们每一次都在不确定的场景下，冲动着为其买单。

以网红为原点开展的种草，本质是借助营销手段挑起用户的猎奇心理，通过夸张消费体验、滤镜美化等内容刺激用户不受控制的消费欲望。

这便导致了不少用户下单和体验后发现，网红种草内容与实际情况货不对板、体验很差。

这种局面该如何破之？

要知道，任何没有闭环的生态，都缺乏自我成长的基因。而种草经济，少不了关键的一环——用户评价体系。

评价体系是一套用于表达用户真实消费体验的机制，为用户的消费决策提供参考。

这些，是当前植根于短视频平台的种草经济尚不具备的。

一、什么是评价体系？

1. 评价体系的定位

回想一下我们上方所提到的内容，我们认为：评价体系是真实种草的守门员。

中立、客观的评价体系，确保了种草的内容更加纯粹，由普通大众分享的真实体验和真实消费后评价，可以最大化剔除各种营销推广以及各种网红滤镜。

2. 用户底层需求

将历史的画卷展开，我们发现，评价体系诞生之初，就是借助大众的力量，为用户消费意愿提供参考依据，旨在为用户降低决策成本。

好评或是差评，无形当中都在帮助用户进行决策，做出更加有利的消费选择。

3. 评价体系的特性

（1）体系的科学性

评价体系要做的事，就是把主观感受，以量化的方式科学地呈现出来，这背后是一套复杂的信用评价模型。

评价体系表面上看起来是“几颗星”或者是“多少分”，但实际上，从消费到评价的链路，从评价输入到评分呈现、后期生态治理等等，环环相扣，离不开科学手段论证和校验。

一个科学的评价体系，至少表明其评价和评分的内容具有可参考性、是有用的。

（2）体系的公允性

一套科学的评价体系要长期运转，离不开底层价值观支撑——真实。

公信力是评价体系的立身之本，基于真实消费、真实体验的评价体系才能维持供需两端的动态平衡，不断发挥评价体系该有的价值。

也因此，对于评价的治理成为不少评价体系运转当中不可或缺的内容。

二、典型平台剖析

接下来，我们再来研究一下关于评价体系的具体内容。

我们选取了“评价体系”三个常见领域的典型代表，这“三个代表”分别是文艺领域的豆瓣，实体电商领域的亚马逊以及生活服务领域的大众点评。

从各种评价产品的模式来看，这三者均属于大众评价模式，而非专家评审。每个人都能为自己想要的生活投票，这也正是评价体系的基本理念。

我们接下来，分别从平台特点、评分逻辑两大方面来深刻剖析一下这三个典型模式。

1. 文艺领域的豆瓣

（1）平台特点

豆瓣最近过得可“不太平”，《风起洛阳》未播先评事件，将豆瓣的评价体系一时间推上了风口浪尖。

但从另一个角度来看，豆瓣也确实有些许无奈：文艺领域本身就带有强烈的主观性和倾向性，其评价结果往往会随着个人审美差异、经济文化差异、政治理念差异以及粉丝效应等因素而变得不纯粹！

因此建构一套文艺类评分体系，难度其实非常高。

从本质来看，豆瓣的评分逻辑是以民主投票方式形成大众流行文化的生成机制，可以理解成一种风向标，并不是纯质量的评判体系。

（2）评分逻辑

总的来说，豆瓣的评分机制，被称为“大众评审团机制”，主要是 “一人一票”，即把豆瓣用户的打分（一到五星换算为零到十分）加起来，再除以用户数，就得到了豆瓣评分。

这个分数完全来自程序的计算，中间没有编辑审核，每过若干分钟，程序会自动重跑一遍，记入最新打分人的意见计算分数，豆瓣评分计算到小数点后一位。

这种尽力“照顾”个人情感的评分逻辑，意味着一部电影的豆瓣评分，是由来评分的人群的平均意见决定的。

在早期，豆瓣就意识到评分体系需要长期与刷分水军进行对抗。

那豆瓣是如何应对这方面问题的呢？

豆瓣为此建立了“反作弊”的防御机制，叫做剔除“非正常打分”，即有程序专门识别“非正常打分”，在算分的时候剔除不正常评分。

根据豆瓣内部员工的叙述，“非正常评分”大致有四类：注册/收购帐号刷高分的，注册/收购帐号刷低分的，明星粉丝团“进攻豆瓣”的，铁杆用户“捍卫豆瓣评分公正”反水行动的。

对于与影片无关和人身攻击内容的判定，豆瓣采用算法+人工的方式筛选。具体被定义为与影片无关和人身攻击并未详细解释，不过针对人身攻击豆瓣方面举了一个例子，“如果用户评论‘恶心’是没问题的，但是评论‘xxx恶心’则会被判定为人身攻击。”

豆瓣为了照顾“个人情感”，其算法并没有特别严厉，而人工的方式，难免耗费人力物力，而且难免存在纰漏，也正是豆瓣评分的这种底层逻辑，才出现了我们前面所提到的，豆瓣最近的“不太平”。

但电影领域的评分体系，并非只有豆瓣这么一种算法，IMDb的TOP250电影算法就显得更加“严苛”，采用的是贝叶斯统计算法，其公式如下：

其中，WR（WeightedRank）指最终的加权得分，V 指投票人数，M 指进入 TOP 250 所需的最小票数，R 指普通算法的平均分，C 指目前所有电影的平均分。

总的来说，IMDb的评分机制不是求和平均，而是优质用户权重高，马甲水号权重低。

豆瓣在计算TOP250电影时，也借鉴了这类加权平均分的算法，但在M值和C值上会与IMDb有所不同。豆瓣250还会对电影上映时间有要求，只有上映时间超过一年的电影才有可能上榜豆瓣250，从而避规一些电影的刷榜行为。

小结：豆瓣充分照顾了每个用户的评价权，但如何在复杂的互联网环境下，维系好评分体系的公信力，是豆瓣的需要继续思考和努力的方向。

2. 实体电商领域的亚马逊

（1）平台特点

作为电商平台，亚马逊的评价体系，则少了很多个人情感问题方面的枷锁和束缚，更加专注于展示真实的评价结果。

真实的商品评论可以帮助顾客做出正确的购买决定并获得他们真正需要的商品，亚马逊认为，评论是不是能够准确反映顾客之前对于商品的真实体验尤为重要。

（2）评分逻辑

亚马逊为了约束卖家在平台销售过程中提供优质的产品和服务，制订了两套评价体系来对卖家的产品和服务进行衡量，分别为针对购买订单做出反馈的Feedback和针对商品评价的Review。

① Feedback（买家反馈）

当一个顾客在一个店铺购买了产品之后，买家可以根据自己实际购物中的体验对该店铺做出评论，服务的好坏，到货时效的快慢等都是买家Feedback可以表达的内容。

亚马逊把Feedback和卖家账号表现的ODR（Order Defect Rate）直接挂钩，一星和两星的Feedback直接计入ODR，而ODR的好坏又直接决定着卖家账号的安危，当一个账号ODR指标超过1%，账号也就岌岌可危了。

② Review（商品评价）

Review评价只针对于产品本身，不影响店铺的安危。

但Review评价，对于销量有着至关重要的影响。一个好的Review可以对Listing的销量起到很好的拉升作用，能够快速促进销量的上升，是打造爆款必不可少的助力，而一个差的Review，也同样可以让一条Listing的销量瞬时跌入谷底。

亚马逊最终在计算review评价得分时，并非只是简单的相加再相除，而是计算的加权平均值！其“加权”，主要包含以下三个方面：

已买单用户的评论权重大于未买单用户的评论权重；
评论存在时间长的权重大于留存时间短的权重；
评论内容丰富详实的权重大于内容简略的权重。

可以看出，亚马逊是在评论质量内容考核方面下了功夫，这个也贴切亚马逊的社区运营的初衷，为用户打造一个高质量的站内review、QA社区，引领用户做出正确的消费抉择。

那亚马逊是怎么应对虚假评分问题的呢？

亚马逊对所有买家评论违规行为都实行零容忍政策。如果被发现卖家有任何试图操控买家评论的行为，亚马逊会立即采取措施，包括但不限于：

立即永久撤销卖家在亚马逊上的销售权限，包括扣留资金。
移除商品的所有评论，并且阻止商品日后收到评论或评价。
从亚马逊永久下架商品。
对卖家采取法律行动，包括诉讼和移交民事和刑事执法机构。
公开披露卖家的名称和其他相关信息。

从前段时间亚马逊大规模封禁中国卖家账号的事件中，我们感受到亚马逊对“刷好评”治理的雷霆手段：

在5个月之内，亚马逊关闭了约600个中国品牌的销售权限，其中涉及这些品牌的约3000个卖家账号，其原因均与虚假评论有关。

这些账号里面的资金会被暂时冻结，冻结周期为90天；这些资金将被用来支付对客户的退货、退款、赔偿等费用以及卖家其他未支付费用。

小结：亚马逊以近乎苛刻的准则，最大程度上保证了评价评分的真实性。但如何在治理的同时提升用户主动评论的热情和积极性，亚马逊仍在不断探索更加优质的评价机制。

3. 生活服务领域的大众点评

（1）平台特点

生活服务领域更加的包罗万象，这是一个极其分散和多元化的体系，众口难调是常态。

与亚马逊纯电商模式不同的是：大众点评面临的是线下商业生态的线上化过程，评价体系解决的是线下商业透明化、公信力问题，但因履约环节的复杂性和多重不确定性，要求大众点评的评价体系必须是一套精密科学的体系。也就是说，必须拥有这样一套体系，才能应对复杂的实体商业生态。

大众点评秉持的原则为：鼓励真实有帮助的评价！这句话可以从两方面进行解读，一方面是鼓励大众在真实体验后进行评价，另一方面，呈现给用户的都是真实有帮助的评价。

（2）评分逻辑

首先在评价结果当中，最直观的就是星级评分。

总体来说，大众点评的星级评分并不是简单的算术平均，而是众多用户的“总体评价”，结果根据数据模型自动评定而出，没有任何的人工干预。同时，星级每天会根据商户4天前新增的评价更新计算。

其全面性体现在，星级评分计算，包含了以下四方面的因素：

诚信度：体验后的真实评价才会纳入计算；
时间：近期新提交的评价更重要；
质量：评价包含更多真实有用的信息更具有参考性；
数量：其他因素相同，评价数相对更多的商户更有机会获得高星。

2021年初，大众点评对评价规则进行了调整，让星级评分能更加如实、客观地反映用户的满意度。

大多数用户表示，个位数评价因数据量过少容易造成星级偏差，会影响消费者对商户真实情况的判断，进而影响消费决策。

而精选评价本身，也有严格的准入条件：

通过审核，平台会对每条评价进行审核，评价发布时间的次日24点前可审核完成，广告、灌水、重复、违规、虚假等内容无法通过审核；并且不定期对精选评级进行回扫审核，不符合要求的则会取消展示；

评价字数不少于15字，能够有效传递消费体验。

大众点评的评价机制经历多年的发展已经逐步完善，但伴随线下商业逐步线上过程，难免会有线下商业难题同步被线上化，大众点评又是如何通过反作弊机制来保障评价体系？

我们可以从前期的预防和后期的处置来进行剖析。

前期预防：

大众点评根据不同的评价场景，定期迭代和优化算法，结合人工审核监督，保障平台上展示的评价能够反映用户真实体验后的感受。

借助风控系统，对每条评价进行识别和审核，只有通过过滤机制的评价，才会在精选评价页面展示。

后期处置：

平台内部，对违规刷评价的商户进行“星级隐藏”、“排序降权”、“商户页公示”等。违规用户也会涉及“等级降级”、“撤销VIP”、“禁发评价、笔记、图片、视频等内容”等多项处理措施。

小结：大众点评评价体系承载的复杂性远高于豆瓣、亚马逊的评价模式。正如包罗万象的生活服务领域一样，大众点评的未来仍需要深耕，不断优化面向本地生活各垂直领域的评价体系，满足广大用户通过评价种草的需求。

三、结语

像任何一种新兴的社会现象一样，我们开篇所提的种草经济风靡，是这个时代的产物，也是当代流行文化的表征。

一个流行动词就是社会的一个切面，可以勾勒出相关行业的最新发展动向，但追本溯源之后，我们会发现：一个好的评价体系，才是真正帮助理智种草和消费决策的关键。

盛行流量当道的时代，坚守好一份评价体系非常难能可贵。

我们相信：用户种草，也许离不开网红的营销推广，但显然更需要一份真实有用的评价体系。

本文来自微信公众号：人人都是产品经理（ID：woshipm），作者：晓庄