如何科学客观地给一款游戏打分?
心诚则灵。
** 1 **
最近,游戏评分又在玩家之间引发了不少的争议。围绕着著名游戏媒体IGN对《死亡搁浅》打出6.8分的同时对《宝可梦 剑/盾》给出了9分的高分,不少人表示了对媒体评分的不认同:IGN的评分就是图个乐!
其实游戏评分的争议不只发生在IGN身上,很多媒体都曾因游戏评分或高或低而招致非议。
问题在于矛盾性:游戏评分给人的感觉应该相对客观公正,但实际上它却充满主观要素——游戏媒体的评测工作通常由一个人独立完成,而且为了保证独立性而不允许他人干预。
但即使IGN、GameSpot这样的传统大媒体,评分也并没有统一的标准,虽然这些编辑会尽量用专业客观的角度来评判一款游戏,但从根本上来说,他们仍是以自己的标准来打分的。所以同一款游戏的媒体评分和玩家评分出现较大出入时有发生。
创造一个科学客观的评分方法有那么难吗?
虽然本人的数学很烂,但我有理由相信自己能够一劳永逸的解决这个问题。
** 2**
游戏是多种多样的,有些游戏是高成本、大制作,著名团队制作、大牌明星加盟。有些游戏可能只是某个大学生的毕业设计,几乎没有人听说过。我们对大游戏比较挑剔,对小游戏比较容忍,游戏在成本、质量、知名度上的巨大差异,决定了对于它们的评分方式也应该分而治之。
因此建立模型的第一步,我们按照马克思列宁主义阶级论,划分游戏的阶层。
生产资料占有关系将是我们进行阶级划分的唯一正确的标准。
对于游戏来说,独立游戏开发者对游戏拥有绝对的控制。随着游戏规模变得越来越大,制作者对于作品的掌控也会变得越来越少,而对于一些游戏工作室来说,生产资料完全掌握在大发行商手中。
因此根据制作者对于游戏的控制权,可以将游戏分为几个阶层。
不同阶层的游戏开发目标、受众不同,评分标准也不同。
把上层资产游戏和中层资产游戏为第一类游戏,因为这些游戏往往以获得商业成功为目标,成本更高,质量更好,也更会迎合大众的喜好,因此大众的评分对于这些游戏有较好的一致性。不要误以为是因为它们的数据比较容易查。
剩下的两类游戏为第二类游戏。这些游戏往往是独立开发的,或者销量不高,或无人知晓,所以没有很多的统计数据可以参考。
它们的评分标准也更加复杂。制作者的初衷未必是追求商业上的成功或者迎合大多数玩家的口味,因此这些游戏的评分往往会出现两极分化,一个玩家觉得无趣的游戏可能会在另一个玩家眼中是难得的精品。再加上它们的销量整体较小,玩家样本也少(换句话说就是没法算),因此它们的评分需要分开计算。
下一步,我们就可以开始计算游戏的评分了。
第一类游戏:
要对第一类游戏评分,首先我们要确定影响游戏体验的因素。
游戏体验是很难简单量化的,此前有不少人尝试过用数字去衡量一款游戏的体验,为此他们开发了一套完整的调查问卷系统,称为游戏投入度问卷(GEQ),通过让玩家回答一系列具体问题来获得一个最终的得分,比如“我觉得游戏很容易上手”“我觉得游戏很好操控”。
不同的研究中选择的影响因素也不同,可能包括注意力、代入感、成就感、美术、个人兴趣等等。还有人通过探索性因素分析法和验证性因素分析法,来确定影响游戏体验的因子。
但不论是哪种方式,都有需要通过调查多个层面的几十个小问题来实现科学的统计。
但对于每一款游戏都进行大规模的调查是不现实的,我们需要的是能够普遍用于多数游戏的通用公式,最好是利用现有数据就可以完成的。
在日常衡量游戏的指标中,我们首先想到的自然是媒体评分。但就像开头说的,媒体评分的波动性很大。媒体评分的形式更接近统计学中的立意抽样或专家抽样,属于非概率抽样,因此结果只能用做参考,而并不能用来推算本体。 即使我们使用平均得分,因为总体的样本量小,也会很不准确。
因此我们选择metacritic上的用户平均分S0作为评分的基准,虽然用户评分同样具有主观性,但因为这些数据样本量大,相比之下比媒体评分代表性强。
接下来,要考虑的是一款游戏的关注度对其评分的影响。游戏的关注度高并不等于评分高,有时反而会成为游戏变烂的重要诱因,对此《辐射76》有很多话要说。
因此要科学的计算游戏评分,我们要考量的是游戏关注度和真实表现之间的关系。
抛开小众游戏不谈,对于第一类游戏来说, 好游戏最真实的表现是什么? 销量! 购买是实实在在的肯定,我们常看到某某游戏的销量突破百万,就是证明这款游戏很不错。
但A游戏比B游戏的销量高,不代表A游戏就比B游戏好,总会有一边骂一边玩的人,所以一款游戏的真正好坏应该取决于它的表现是否达到了预期。
用游戏的销量N除以关注度,就可以得到游戏的真实购买率α,α越高,就说明这款游戏越符合大众的期望,如果α大于1则说明游戏的表现超过了预期,这样的游戏也自然就是更“好”。
那如何体现游戏的关注度呢?关注度用新词说就是流量,这里用游戏在搜索引擎中的搜索结果数量T来代表。
于是有了下面的公式:
接着我们要找到能够代表游戏“好玩程度”的参数。
好玩并不好界定。就拿最近的《死亡搁浅》来说,不少人觉得送货很无聊,但也有很多人觉得修路实在太上瘾了。那么,如何来衡量一个游戏是否好玩呢?
游戏时间可能是一个好的标准。如果一个游戏很无聊,我还坚持一直玩,那么……那么只能说明我就喜欢玩无聊的游戏,它对我来说就是一个好游戏。
但这里不能单纯使用游戏时间作为参数,如果游戏太无聊直接让你睡过去了,那游戏时间也会大幅增长。
因此这里我们通过howlongtobeat.com这个网站,找到每款游戏的平均通关时间。再用每款游戏的平均游玩时间t1除以它的平均通关时间t2,就得到一款游戏的平均停留度。
平均停留度越大,说明玩家越愿意留住游戏中。如果停留度大于1,说明游戏重复游玩的价值很高。
这样一来我们就有了决定游戏好坏的三个因素,它们的乘积结果(别问我为什么是相乘)就是游戏的科学加权评分。
最后让我们用几个熟悉的游戏做个测试,结果如下:
我不知道为什么只狼的得分如此低,科学就是如此神奇,大概是因为太难导致流量太多、销量太少吧。
这种评分方式存在一些“小问题”:对于刚发售的游戏,因为销量和评分还不稳定,无法使用(发售时间不同的游戏之间相比也有失公平)。再有就是不少游戏的销量无法查到,有些游戏不存在通关,还有除Steam平台之外的数据都很难查到。
没关系,我们对“第二类游戏”的评分方式会变得更加客观的。
第二类游戏:
下一步,我们要对无产阶级游戏和小资产游戏进行评分。
这种作品往往没有大规模的受众,或者没有详尽的数据进行参考。因此我们需要利用自己的评分,并尽可能的让评分真实有效。
不是因为我编不下去了,我们知道个人对一款游戏的打分往往受到情绪的影响,对喜欢的游戏吹爆,而对于不喜欢的游戏则一黑到底。所以个人对游戏的评分通常呈现非10即0的情况。
如果玩家对一款游戏相当兴奋,那么他对游戏的评分x,会随着兴奋程度n的变大而发生x=10n的指数型增长。
由此我们可以得到兴奋指数n。
如果取评分的满分为10分,那么减去兴奋度之外的部分为真实评分,再用真实评分除以兴奋指数,可以得到真实评分率β。
于是最终的游戏真实评分y可如下计算。
经过我对公式进行化简,结果如下:
可以看出,对第二类游戏的真实评分就是你对于游戏的评分。
所以至此我们终于一个科学结论: 游戏评分还得信自己。
以上就是我的游戏评分方法,虽然不一定正确,但至少科学,即使不科学,也至少客观,哪怕不客观,也足以让你在与其他人的辩论中立于不败之地。
因为即使对方想驳斥你,也起码得写出一个同样科(wu)学(liao)的论证来。而在这之前,你已经证明了自己的评分比IGN更客观,这就够了。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: