电影打分网站到底靠不靠谱？-虎嗅网

文 / 凌翔宇

我们越来越习惯看电影之前先去各大网站看一眼分数再决定看什么了。

在电影口碑（尤其是在国内市场）缺乏量化标准的情况下，网站的打分似乎已经成为衡量一部电影的质量是否受到观众认可的唯一标尺，甚至电影分数会在很大程度上决定影片的命运。可是，打分网站的分数真的靠谱吗？

在电影营销无孔不入的今天，这是一个“水很深”的话题，不过在本篇文章中，我们暂且先不要管虚假分数这个“深水区”，而是退一步来说：即使假设一部电影没有水军来提供虚假数据，那么这些分数就真的能够反映观众的真情实感了么？

即使数据真实，也有两个因素在影响着分数：打分机制，和观众的心理。

首先，不同的打分机制很可能会带来大相径庭的结果；

其次，打分并不是纯粹的抽样调查——这是个观众借助评价电影的行为来构建自己的社交形象的BIG ME时代。

因此在本文中，我们将对通行的打分机制进行分析，并从简单的社会心理学角度来管窥观众的评分心理：你是不是为了在豆瓣儿上装professional，忍痛给你最爱的《暮光之城》打低分了？

互联网时代的电影评分机制：观众的声音

电影评分机制可以说是对“权威影评”的一场革命。

早在20世纪30年代，影评就是电影产业的重要部分，从那个时候一直到20世纪末，观众们接触影评基本上都是通过报纸这样的载体。这个时期的评论评分都是由真正意义上的著名、专业影评人给出，相对而言更为专业，但同时，也只能反映出一小部分精英的偏好。

而互联网的普及则彻底使影评“民主化”。观众不再是沉默的羔羊，他们可以在网上自由地对电影进行评价，这一发展完全突破了以往的框架格局。各类电影评分网站应运而生，正是借助互联网这一平台，观众的声音越来越大，乃至与专家们“分庭抗礼”。

现今流行的影评网站的评分方式分为两种，最常见的是根据喜爱度从1到10（或100）打分，最后给出影片平均得分的形式，如IMDB、Metacritic、豆瓣等，也有只需要给出好/坏两极评价，再根据评价数量得出“推荐”或“不推荐”，如最著名的烂番茄。

大多数影评网站接受来自全网络的评价，其中一些网站会将普通观众评分与专家评分分开，如Metacritic和烂番茄，给出更详细更专业的参考。

那么，不管是专业还是非专业选手，观众的声音是如何转化成评分的呢？

1、好？坏？最简单直白的烂番茄的评分机制

烂番茄（Rotten Tomato）是目前最广为人知的电影评分网站之一，“新鲜度”是其最为重要的关键词，指的是每一部电影所受到的评论中好评所占的百分率。而电影的评分会通过三种方式呈现：“新鲜”、“鉴定新鲜”和“腐烂”。

“新鲜”意味着这部电影的新鲜度超过60%；“腐烂”则表示这部电影的新鲜度低于60%；而“鉴定新鲜”则是指该电影有超过80以上的专业影评人打分且新鲜度再75%以上。

烂番茄最大的特点或者说优势在于其非常简单，但是，简单的系统也有缺陷——烂番茄的评分无法直接反映出电影的质量。

首先，“新鲜度”只能表明人们对于电影的喜爱推荐程度，进而延伸到对电影质量的“揣测”。但是，人们对电影的喜爱推荐程度是不能与电影质量高低划等号的。

其次，该机制也无视了评分者对电影的“态度”。同样的电影，有人爱得不行极力推荐，有人觉得还行，他们最终给出的反馈都是“推荐”，进而被计入新鲜度的一部分；同样，对电影的厌恶程度也无法通过烂番茄表达。

再次，这样简单的二元选择在标准非常绝对的情况下是非常适用的，但是众所周知，电影评论本来就是见仁见智的事情，不同人的标准都不一样。而中间值的缺乏更让这个问题愈发严重。相似的评论和态度在烂番茄最终的评分结果上可能就是截然不同的。

尽管如此，烂番茄的“简单性”作为最鲜明的特点，还是为其带来了大量的用户，也让烂番茄成为了最著名的电影评分网站。

2、1-10你的推荐度有多少？IMDb的评分机制

IMDb其实并不是真正意义上的电影评分网站，而是一个电影资料库。但是其评分机制和大部分其他电影评分网站是类似：评分者可以直接对电影进行1到10的评分，而网站最终呈现出来的分数是所有评分汇总得出的。

这样的评分机制是最为常见也是看起来最为合理的（国内的几乎所有平台也都采用了这种机制）。但是，大多数观众打分都是缺乏明确标准的，而且会受很多外部因素干扰，针对这样普遍存在的现象，IMDb的做法是引进Metacritic的专家评分（左下角）。

3、专业视角：Metacritic

Metacritic同样是一个专业的评分网站，与烂番茄相似，其评分同样分为专家评分和观众评分。专家评分总分为一百，由各大专业媒体以及影评人对电影进行评论评分，而最终的分数则由所有评分加权平均而成。

换言之，越著名的媒体或影评人，在电影评分上就更有发言权。对于这样的做法，外界也是褒贬不一，有人认为这样的机制增加了评分的合理性科学性，也有人认为这样做会让某些人对于电影分数的影响过大，失去了原本的意义。Metascore也并非有着完美系统的评分。但IMDb引入该分数相对削减了其本身评分机制的不合理性。

是什么影响了观众评分？心理学中的的小伎俩

无论是专家评分还是观众评分都会不可避免地受到外界很多因素的干扰，接下来介绍几个相关心理学、传媒学的理论，从中我们可以更清楚地看到评分的“不稳定性”。

1、认知平衡理论——俗称“对人不对事”或“我就是来站队的别跟我扯别的”

海德的平衡理论（Heider's Balance Theory，1958年由心理学家海德提出）认为人们普遍地有一种平衡和谐的需要。一旦人们在认识上有了不平衡和不和谐性，就会在心理上产生紧张的焦虑，从而促使他们的认知结构向平衡和和谐的方向转化。虽然这一理论起初应用于人际交往领域，但是也可以扩展到观众、影评人、评分网站之间的关系上。

根据认知平衡的三角模型，观众对于电影的态度会因为影评人或评分网站对于电影的评分而改变以保持平衡。如果观众欣赏的影评人或评分网站对电影的评价较好，那么原本不喜欢这部电影观众会更趋向于喜欢这部电影，或是对影评人或影评网站“粉转黑”；相反，如果观众厌恶的影评人、评分网站对电影的评价较好，那么原本喜欢这部电影的观众会更趋向于讨厌这部电影。

因此，在认知平衡理论中，电影本身的质量如何可能并不那么重要，观众、影评人和评分网站之间的关系在这里才是影响电影评分的关键。一般而言，受到影响的观众会转变对电影的态度，但是也不排除有坚持自己想法的观众转变对影评人和评分网站的看法。

在该模型中O代表观众，X代表影评人或评分网站，+代表好评，-代表差评。

前段时间《自杀小队》引发的烂番茄风波就是一个很典型的“案例”。当时，电影尚未公映，而烂番茄给出的新鲜度仅有35，引发了大量DC粉丝的不满。他们认为烂番茄在近期不断给DC电影打低分，同时又给漫威电影很高的评价，倾向性太过严重，因此还有影迷在网上发起了“关闭烂番茄”的请愿。

这样的“恶作剧”也反映出了部分影迷对于评分网站的反感。而DC影迷们对于烂番茄的抵触情绪也有一个发展的过程。

起初，在《蝙蝠侠大战超人》遭到差评低分的时候，DC影迷们可能还尚未选择抵触评分，而是接受了电影质量较差这一事实；而后，他们觉得没有多好看的《美国队长3：内战》却在影评网站上“好评如潮”，这一次的不平衡让他们对烂番茄本身产生了质疑，认为其是一个倾向于褒奖漫威而打压DC的网站——在《自杀小队》的评分公布后，这部分影迷终于爆发了。

认知平衡理论实际上对电影评分网站提出了要求，如果他们不能够在观众中保持一个“客观中立准确”的形象的话，一定会受到观众的质疑，进而把观众推到网站的对立面，把原本应该围绕影片质量的讨论变为“为黑而黑”的站队式表达。在我们身边，“自XX电影之后就再也不看烂番茄/豆瓣/XX公众号”的例子也不在少数。

2、锚定效应——俗称“我觉得大家说的都有道理”或“你那么可爱说什么都对”

所谓锚定效应（Anchoring effect）是指当人们需要对某个事件做定量估测时，会将某些特定数值作为起始值，起始值像锚一样制约着估测值。在做决策的时候，会不自觉地给予最初获得的信息过多的重视。

在评分者在对电影进行评分的时候，他们会不自觉的参考已有评分，并不自觉地向这个“起始值”靠近。在锚定效应的影响下，即便评分者是不那么欣赏某部高分电影，也会受到“高锚”影响打分偏高，反之亦然。虽然将评分标准细化可以从一定程度上削弱锚定效应的影响，但是效果有限。

因此，电影评分受到最起初的“基础评分”的影响很大，这也是为什么片方都非常重视第一轮的专家评分的原因。观众最先看到是什么样的评分，他们给出的可能就是什么样的评分。

因为锚定效应，电影市场营销也利用了这个心理来营销电影口碑：就是俗称的“KOL带节奏”——当观众熟悉的意见领袖率先发表了意见之后，观众很有可能“跟着节奏跑了”即在自己评分的时候也不自觉递靠近了之前所看到的意见领袖评分。

这一现象不同于上文的“认知平衡理论”的点在于：即使观众不是这些意见领袖的脑残粉，其打出的分数仍然会向KOL的打分靠拢。

3、沉默的螺旋——俗称“懒得跟你们计较”

关于从众打分这个事情，还有另一个模型，其结果非常类似于“锚定效应”，但是原理完全不同：“沉默的螺旋”（TheSpiral Of Silence）由诺埃勒-诺依曼（Noelle-Neumann）于1974年在提出，意思是人们在表达自己想法和观点的时候，如果看到自己赞同的观点且受到广泛欢迎，就会积极参与进来，这类观点就会越发大胆地发表和扩散；而发觉某一观点无人或很少有人理会（有时会有群起而攻之的遭遇），即使自己赞同它，也会保持沉默。

意见一方的沉默造成另一方意见的增势，如此循环往复，便形成一方的声音越来越强大，另一方越来越沉默下去的螺旋发展过程。简单来说，为了避免孤立或太突出，与大多数人持不同意见的人就更趋向于沉默，而非表达自己的观点。

例如《暮光之城》系列正是遭遇了这样的情况，在大部分差评的情况下，有些观众表达自己的喜爱也会被孤立和嘲笑，因此更多的人选择闭口不谈。在这种情况下，电影评分更趋向于向两极发展，但已经失去了本身的客观性，参考价值较低。而此前一些“交口称赞”的电影同样也是如此，尽管质量可能没有那么高，但是称赞、推荐这部电影已经成了一种“政治正确”，那么不那么欣赏这部电影的人也就会选择沉默。

沉默的螺旋效应一般出现在口碑评分出现“极端”的电影上，一边倒的好评或差评，让拥有另一观点的观众选择沉默不参与评分。而大多数“正常”的电影不会受到影响。

4、幸存者偏差——俗称“不喜欢我来打分干嘛”

幸存者偏差（Survivorship bias）是驳斥一种逻辑谬误，即：只能看到经过某种筛选而产生的结果，而没有意识到筛选的过程，因此忽略了被筛选掉的关键信息。

在各类评分网站，我们都能看到一个有趣的现象——电视剧的评分比电影的评分总体要高一些。而原因也很简单，愿意给电视剧打分的观众一般都是那些坚持把电视剧看完的：这类“幸存者”们之所以愿意坚持，一般是因为他们比较欣赏这部电视剧，愿意追到底，因此打分也比较高。

这一效应也可以拓展到电影领域。一般来说，专家评分与观众评分会相差10到20个百分点，而观众评分在大多数情况下都是高于专家评分的。其中的原因有很多，就“幸存者效应”而言，可以解释为人们更倾向于去看自己感兴趣的电影，因此观看此类电影而给出的评分一般都是较为积极的。但是专业影评人则是“被动接受”观影任务，同时阅片量较大的他们会对电影更加苛责，因此评分会被压低。

可以看到，电影评分不单单是只与电影本身质量相关的，除此之外，还有很多种因素、理论表明评分会受到很多外部影响进而损失参考价值，如之前周刊讨论过的影评人的“意见领袖”影响等等。

结语

不管从评分机制上，还是观众心理上，社交平台上的电影评分都有其局限性。但是电影评分之所以大行其道，唯一的原因还是因为它“简单”：以往的影评都是长篇大论，但信息碎片化盛行的今天，连短评都没办法满足人们的需求了，因此，评分成了人们衡量一部电影的首选。

但是，在了解了电影评分的这些机制之后，我们可以看到参考价值依然是长评最佳，短评次之，评分效果最差。因此，想要真正通过影评了解一部电影的基本情况，仅仅看几个数字是毫无意义的，还是需要静下心来，好好看几篇长评。

参考资料：

[1] https://www.rottentomatoes.com/

[2] http://www.imdb.com/

[3]So that’show Rotten Tomatoes works http://www.indiewire.com/2012/03/so-thats-how-rotten-tomatoes-works-130230/

[4]Sorry,butyou’re probably reading Rotten Tomatoes wrong http://www.mtv.com/news/1939097/rotten-tomatoes-youre-doing-it-wrong/

[5] History Smackdown: The Evolution of FilmCriticism

https://www.nyfa.edu/student-resources/history-smackdown-the-evolution-of-film-criticism/

[6]Real Communication (3rdedition) byO’Hair, Wiemann , Mullin & Teven

本文来自微信公众号：凡影Weekly（fweekly），凡影Weekly 是陪伴电影从业者和观察者的学习助手。我们每周梳理全球优质的文化产业知识，解读当下电影行业现象，希望能够协助优秀的您变得更好。关注我们，您收获的将是知识，而不仅仅是资讯。