2019年4月30日 星期二

一個可能大幅改善現況的遊戲評分系統



如果使用20~80的標準差評分系統呢?


評分機制的重要性與現行問題


遊戲是一種形式非常特別的商品,我們很難套用其他實體商品的準則,不管是評價甚至是法規都好,就算同是軟體,遊戲極大多元性的特質也很難在評價上達到收斂,好比說一個影片編輯軟體,其編輯功能與軟體本身的評價至少可以是正相關的走向,但遊戲並不是一個東西塞越多就可能越好玩的產物,更令開發者困擾的是,遊戲不像一般軟體有比較具體的目的,例如Uber的叫車App目標就是希望消費者更容易,耗費更少時間在叫車上面,當然方便這種事對每個人因習慣或許會有所不同,但減少消費者在App上的耗時可以說是無爭議的公認訴求,遊戲呢?講白話點,就是要讓玩家爽,偏偏這點抽象且發散到無邊無際,只有同樣類似藝術形式的小說和電影有同樣的困難,但遊戲卻又比兩者有更高的消費成本,不只是金錢上的,時間的成本可能是更多玩家的困擾,在連遊戲產量都進入爆炸性成長的年代,比起特定遊戲的續作會不會出,能有一個足夠參考價值的評分或許是許多玩家更夢寐以求的。

但以我多年來各家媒體評價的閱歷,我覺得沒有任何評價方式有朝著這個目標發展,在Metacritic這種綜合平均的網站出現後反而更有開倒車的現象,前面強調過遊戲本身的主觀性,隨之而來評價的主觀性也是相當的高,一個遊戲數十篇評價,分數有可能有非常大的差異,因為同樣的問題,玩家覺得爽的方式很不一樣,也所以遊戲媒體界一直少有明確訂出評分規則的做法,一旦訂出特定的標準,例如遊戲時間等等,其參考價值馬上可以被一卡車的遊戲毀滅,所以目前現行遊戲媒體的評價簡單說完全是看作者個人,那平均各家評分的問題就很明顯了,既然不是同樣的標準,又為什麼可以簡單的做平均,以科學上的角度Metacritic這種平均分是完全沒有意義的,也所以儘管有區分媒體與網民評分,就算如Metacritic這種蒐集大量樣本的結果,不時仍讓玩家議論。



棒球的球探報告可能是最佳解!?


我們要解決的問題就是尋找一個主觀成分很高,但又希望可以表達上盡可能客觀的表示法,似乎非常矛盾,但棒球的球探報告意外地好像很滿足這樣的需求,首先我們可以先了解一下球探報告的給分系統,這邊推薦東方神秘力量,嗨嗨大神Josh的解釋影片,那我僅在文字上做簡單的描述。

大聯盟球探報告給分是最低分20分到最高分80分,這個邊界的理由是每10分可以表示成為一個標準差,我們用常態分佈的曲線來看:


平均值前後三個標準差的範圍就可以涵蓋到99.7%的樣本,所以20~80分的這個評分系統,每10分就代表差一個標準差的意義,所以兩個打者在球探報告的打擊分數分別是70分與60分,就代表前者打擊能力是優於後者一個標準差的意思,0~20與80~100這些區間不是不存在,而是樣本數極少,比較上已經失去意義。

那如同球探報告的分類方式,每個標準差會有一個相對應的名稱,一般50分是平均(Average),60分是優於平均(Above Average),70分是優異(Very Good),80分是卓越(Outstanding),反向同理。所以球探報告不需要精準計較一分、兩分,只需要表達出該球員會是在哪個等級的區間,也所以有些球探報告也乾脆就直接用2~8表示,那至於怎麼給分,則完全是憑球探的個人主觀經驗,雖然有不少項目可以透過精確測量得到,但選手這麼多,球探們一般除了測速槍或碼錶,很多時候還是得靠自己的眼睛。當然如同Josh影片中提到的,球探報告可能也會有細項,例如跑壘的大項目下面會分出盜壘起跑時間掌握、60碼衝刺速度、擊球後到一壘的時間....等等,不過要注意,大項目的分數並不是其子項的平均,子項的存在只是補充大項目沒有表達的細節,所以並這種標準差的評分方式不會只能表達的很籠統,只是比起一般分數系統,他必須透過更多項目而不是數字上更多位數來達成更詳細的表示。




遊戲看起來很適合啊


仿照球探報告的格式,我就來試寫一個遊戲報告,這次我們用《地平線:期待黎明》來當範例:

區間分類:
80:頂尖
70:優秀
60:優於平均
50:平均
40:劣於平均
30:差勁
20:拙劣

項目分數備註
整體評分
劇情65無分歧
戰鬥系統70
探索70
表現力75
戰鬥系統細項
打擊感65多為第三人稱弓箭射擊
系統變化60
解鎖項目60
AI70有追擊範圍
探索細項
角色移動55無固定載具,有條件快速移動
豐富度70
主線任務55
支線任務60
表現力細項
畫面75PS4:1080p 30FPS
PS4 Pro:2160p 30FPS
動作65
人物表情40
音效70
背景音樂60

不曉得各位讀者的感想是什麼,但我覺得球探報告的形式非常理想的解決了遊戲評論常見的問題,例如說我們從戰鬥系統的細項來看,我在大項目給了70分的分數,但所有細項中只有AI給了70分,用文字來解釋就是說AI表現可以說是戰鬥系統最優秀的地方,儘管戰鬥系統本身各層面拆開來看都不到優秀的程度,但整體戰鬥的感覺仍足以放在優秀的層級。其他方面也可以看到我在表現力給了高分,但是又可以在細項說明人物表情的缺點,我想除了我對各項目的看法之外,這樣的表示法也表達了我對不同面相看重的程度。另外要注意一點,這個試寫在分數上發生了細項中最高分同時也是大項分數的狀況,在這個評分系統中並不是必然,細項中出現極高分,但是綜合大項分數卻不高也是有可能的。



不過還是有些問題


棒球來說,雖然守備位置上有差異(而且嚴格來說還需要參考球探報告的時候,其球員的守位就還有相對大的調整可能),但大致上每個野手的評斷標準都是相同的,投手則會有投手的版本,遊戲的問題就是類型的不同,項目上可能不適用,例如說拿《秘境探險》系列套進我試寫的這個格式就會有一些狀況,因為《秘境探險》是個非常線性的射擊含解謎遊戲,所以沒有辦法套用主線支線任務的評分,也沒有解鎖項目,同時《秘境探險》系列多人的部分也是遊戲相當重要的內容,這邊用同樣的格式一樣無法表達。

當然可以單純跳過評分表示,不過更理想的方式我認為是依類型作出不同的表格,而且類型必須是相當廣泛的大方向類型,如果標準細到像有些鄉民「《刺客教條》《巫師》是不同類型的遊戲,沒有比較意義」的這種標準,那我們要評《刺客教條》會生出一個只能適用《刺客教條》的規格(而且照這標準,《奧德賽》的評比還不能用到《起源》以前的作品),那這樣就失去了其意義,涵蓋範圍應該要能套用大方向類型,例如說運動遊戲就要有自己的評比項目,我想應該很容易發現像《NBA 2K》系列的遊戲就不太可能套用我這個試寫的版本,而大項目的項目別,則應該要是該類型中所有遊戲都能帶入,階層關係正確才能避免解讀上的誤差。

只是,遊戲最麻煩的就是連類型的分類也都越來越模糊,好比說《隻狼:暗影雙死》應該要套用動作遊戲的規則,還是RPG遊戲的規則?《駭客入侵》要套用RPG遊戲的規則,還是射擊遊戲的規則?射擊遊戲要一起放在動作遊戲下用同樣一套規則,還是要獨立於動作遊戲?但如果真的採用這種評分方式,我想可能還會因此創造出與過去習慣上完全不一樣但是更精確的遊戲分類。



小結


雖然看似還有不小的問題,但我想套用標準差評分的方式,仍然有助於讓評分系統的問題走向收斂,而且同時這也符合目前現有的評分方式,或者說至少是Gamespot的評分方式,當時Gamespot的重量級編輯Kevin Vanord就說過,遊戲評分並不是看壞的地方然後扣分,而是看好的地方去給分,換句話說,遊戲拿到滿分不代表他是完美沒有缺陷的,而是它有的內容掙來了作者給予最高的評價。未來有沒有機會真的看到這種評分標準,出現在遊戲甚至是電影的評分上?我想機率是微乎其微,就連在棒球早已行之有年,我相信多數球迷聽到大谷翔平的直球有80分,都會問Josh影片中一樣的問題,那誰的才是100分,遊戲也很喜歡拿評論媒體的分數打廣告,如果改成標準差分制,標題變成"IGN畫面表現項目75分高分!!"這樣,大概是很多人滿頭黑人問號,但我相信以改善評分機制這個立場上,比起要求作者秉持客觀的角度這種虛無飄渺的作法,標準差評分制是我目前認為最理想的解答。

沒有留言:

張貼留言