Tyler Sigman:阐述统计学在游戏设计领域的应用
本文选取了游戏设计师必须了解的统计学相关内容。尤其是针对系统架构师、机械工程师、游戏平衡性设计师等不同设计领域中的专业人士,统计学知识显得尤为实用且不可或缺。
统计学是一门建立在数学基础之上的学科,然而它确实显得相当乏味。若严格而言——若你曾被迫深入研究双边置信区间、学生T检验以及卡方分布测试,你可能会发现这些知识点的吸收并非易事。
通常情况下,我对物理学和力学情有独钟,因为在这种学科中,常常只需对某个实例进行简略分析,便能验证其真实性。比如,当你计算苹果从树上落下的速度和方向时,若你的推算结果是苹果应当以每小时1224英里的速度垂直向上抛出,那么实际上,你已在心中对这一结果进行了核实。
统计学的长处在于其易于理解且逻辑严密;然而,它的独特之处也构成了其不足。尽管如此,本文的讨论内容定能避免你的兴趣消退。其中,多数议题涉及具体、关键的数据信息,足以激发你深入探究的欲望。

statistics(from wired.com)
统计学:黑暗的科学
统计学是所有学科领域中最易被邪恶势力滥用的科学。
统计学与邪恶行为存在可比性,因为一旦被滥用,其分支便可能被错误地关联到诸多无价值或不实的关联之中(详见文末案例)。若政治人物或其他非专业人士掌握了统计学,便有可能操控关键决策。通常而言,那些基于错误归纳的糟糕决策往往不会受到好评。
也就是说,在恰当运用的情况下,统计学无疑是一种极为有用且有益的工具。然而,对于那些掌握强权的人而言,他们可能会将统计学用于一些非法的途径,甚至是一些毫无意义的用途。
统计学——所谓的争议
我已做好了对内容进行简洁概括的准备,但随后我发现维基百科对统计学已有明确的界定,其表述之优美,简直可媲美诗篇。
统计学作为应用数学的一个重要领域,其核心任务在于对数据进行搜集、处理、阐释和展示。这一学科在众多学科中发挥着重要作用,无论是自然科学如物理学,还是社会科学和人文科学,都广泛采纳其方法。此外,统计学在工商业领域和政府决策情报方面也有着不可或缺的应用价值。(资料来源:Wikipedia.org)
这篇文章确实非常触动人心,尤其是结尾那句“在情报决策方面得以应用”。
自然,作者遗漏了提及“游戏设计”这一领域,然而我们宽恕了他对于这个快速成长的行业所存在的认知不足。
以下为我自己撰写:
统计学作为应用数学的一个重要领域,专注于数据的搜集与处理,旨在揭示历史发展的脉络、预判未来可能出现的走向,并帮助我们更好地理解那些需要掌握的知识点。(资料来源:Tylerpedia)
如果将此修改为适用游戏设计领域,那可以如此陈述:
统计学为你的机制缺陷和设计破绽指明了通往光明的路径。它为你的设计决策提供了坚实且科学的依据。
须知的事实
统计学与其他硬科学一样,其深奥与繁复程度令人叹为观止。正如第一部分所探讨的内容那样,本文仅选取了若干精选的主题进行论述,我个人认为,对这些主题的掌握已经足够应对所需。
再次突击测验
很抱歉我要采取另一项测试了。别讨厌出题目的人,讨厌测试吧。
20名测试员刚刚完成了《S-car GO!》游戏的一关。他们完成一圈的时间在1分24秒到2分32秒之间。根据我的预期,平均用时应在2分钟左右。那么,这次测试能否达到预期效果呢?
在同一关卡的数据收集过程中,你积累了大量信息。经过深入分析,你得到了以下结论:平均用时为2分5秒,而标准差高达45秒。对于这样的结果,你是否感到满意呢?
你开发了一款休闲游戏,即将推向市场。在接近发布的QA环节,你发放了测试版游戏,并收集了所有数据用于测试。你收集了超过1000名玩家的得分数据,以及超过100名特定玩家的得分数据(部分玩家可多次参与)。通过分析这些数据,得出平均得分为52000分,得分标准差为500分。这款游戏是否可以开始发行呢?
你开发了一款角色扮演游戏,随后来收集并分析了新玩家在完成第1关至第5关时的游戏进度数据,具体数据包括:4.6小时、3.9小时、5.6小时、0.2小时、5.5小时、4.4小时、4.2小时以及5.3小时。请问,你能否计算出这些数据的平均值和标准差?
总体和样本
统计学之根本在于对数据进行剖析。在剖析数据的过程中,必须掌握以下两个关键概念:
1.总体:
总体涵盖了该领域内所有需要被测量的个体。它是一种抽象概念,只有在测量需求出现时才会变得具体。以了解人们对某一特定问题的观点为例,你可以选取全球所有人、爱荷华州的所有居民,亦或是你周边街道上所有人作为研究对象。
2.样本:
样本实则是对总体中一部分个体进行测量的代表。其理由显而易见,全面搜集总体数据实属不易。相较之下,我们能够较为轻松地获取总体中的一部分数据。这部分数据便构成了我们所指的样本。
正确性及样本容量
统计学结果的可靠性通常由样本容量的大小决定。
我们追求的理想状态是样本规模能够等同于整个总体——换句话说,我们希望搜集所有相关的数据!由于样本规模较小,你便需对潜在的趋势进行预测(这属于一种数学上的推算)。此外,数据点越多越佳;你应当努力构建一个庞大的总体,而非一个规模较小的。
若要调查一万名初中生对《Fruit Roll-Ups》的看法,得考虑调查者能否与每位学生进行交流。如此庞大的数字,若无法实现,调查一万人尚可接受。若连这一目标也难以达成,那么调查一千人或许是个合理的选择。
由于受到时间和成本的限制,通常情况下开yun体育官网入口登录app,所公布的研究成果往往是以对样本群体进行的调研为基础得出来的。
1.统计学的常识性规则:
仅凭单一数据点,无法准确预测整体趋势。仅因你了解我偏爱巧克力冰淇淋,便不能推断所有Sigmans都对此情有独钟。若对家中众多成员进行询问,或许能得出较为合理的结论,或者至少能够判断是否能够得出一个合理的推论。
广泛的分布图(重点!)
鉴于诸多因素,唯有《The Big Guy》能够阐释诸多生活现象为何往往遵循某种一致的模式演进或分布。
最广泛的分布形式被赋予了一个恰当的称号——“正态分布”。确实,任何与这一分布图不吻合的都被称为非正态分布,因而显得有些异常(需谨慎对待)。
正态分布,亦称作高斯分布,其命名主要源于“正态”这一词汇在科学性上略显不足。
正态分布亦被称作“钟形曲线”,亦即贝尔曲线,此名源于其曲线形状宛如钟的轮廓。

bell curve(from gamasutra)
钟形曲线的显著特征在于,大部分数据都集中在平均值附近,仅有少数数据点散布在两端,这些数据点通常指的是那些明显偏高或偏低的情况。位于曲线中间的大量数据共同塑造了钟形曲线的轮廓;与此同时,那些超出平均值的数据点则分布在曲线的两侧边缘。
我们身处的环境中,存在着数以百万计的各类现象,它们都遵循着正态分布的规律。若是对居住城市中每个人的身高进行测量,所得数据很可能也呈现出正态分布。由此可知,极少数人属于异常的矮小,极少数人拥有姚明般的身高,而绝大多数人的身高则会在平均身高上下波动,或多出几英寸,或少几英寸。
钟形曲线这一模式同样非常典型地适用于对人们技能水平的调查。以运动为例——在这一领域,仅有少数人能够成为专业人士,绝大多数人表现尚可,然而仅有少数人实在不擅长,因此他们未能被选入队伍(比如我)。
其它分布图
尽管正态分布图显得相当完美,然而,它并非我们周遭唯一存在的分布图形式。实际上,它的存在范围相对较广。
例如,某些分布图直接关联到赌博和游戏设计领域,仅以掷骰子的概率分布图为例,在此情形下,便可观察到诸如d6和2d6等特定情况。

D6 distribution(from gamasutra)
2d6 distribution(from gamasutra)
我要表达的是,第一张分布图与钟形曲线相去甚远,而第二张图则逐渐显现出钟的轮廓。
平均值
这一部分内容在漫长的文章中犹如一个小插曲。这部分内容的存在,旨在向你阐述“平均值”的概念。它以一种自我参照且略显迂腐的方式,默默地向你揭示,平均值实际上是一系列数学平均数据的集合。
方差和标准偏差
我们需深刻认识方差与标准偏差的含义,它们同样蕴含着丰富的实际意义。它们不仅有助于我们进行有效的数据概括,还能让我们在描述数据分布时更加周全。例如,我们不必仅仅说“数据点集中在中间”,而是可以更精确地表达为“68.2%的样本数据位于平均值的一个标准偏差范围内”。
sigman(from gamasutra)
方差与标准差之间存在紧密的关联,它们均能反映数据的离散程度。简言之,方差和标准差数值较大时,数据分布范围较广。举例来说,在我投掷飞镖的过程中,往往会得到一个较大的方差值。
我们可以运用任何数据集来计算方差与标准差。原本我计划在此处列出相关方程,然而这或许会与“此非教科书”的宗旨相悖。因此,我选择不直接引用公式,而是用以下方式来阐述:
标准偏差指的是样本或整体在数值上与平均值存在差异的大小,这一差异程度通常用希腊字母σ(西格玛)来表示。
以一个实例为证,你选取了100名参与者,测试他们通关你新游戏首个关卡所需的时间。假设这些数据的平均耗时为2分30秒,标准差为15秒。这样的标准差揭示了游戏过程中存在一定的集中趋势。换句话说,从整体上看,玩家的游戏时长大多集中在平均2分30秒的上下0.25分钟范围内。这一数值的稳定性相当显著。
这究竟意味着什么?为何你对这个数字如此关注?原因并不复杂。设想一下,如果你得到的是这样的结果,而不是之前提到的那一个:
平均值=2.5分钟(如上)
σ=90秒=1.5分钟
因此,我们目前掌握了相等的平均时长,却遭遇了不同的波动范围。这些数据揭示了玩家投入游戏的时间存在显著差异。90秒的游玩时长明显偏离了平均时长。鉴于游戏时长为2.5分钟,这种偏差显得尤为突出!考虑到各种设计初衷,这样的巨大差异并非设计师所期望的成果。
若游戏时长设定为十五分钟,且其标准偏差高达九十秒,即一分半钟,那么两者之间的差异将更为显著。
仅需一个微小的偏差即可评估整体的统一性。将标准偏差比率除以平均值,便可计算出相应的数值。以第一个实例为例,15秒与150秒的比值为10%,而在第二个实例中,90秒与150秒的比值为60%。显而易见,60%的标准偏差确实偏高!
然而,这并不意味着较大的标准偏差“必定”是负面的。设计师在测量过程中,有时甚至期盼较大的标准偏差出现。尽管如此,大多数情况下,较大的标准偏差仍旧是不理想的,这反映出数值间的差异和波动性较大。
尤为关键的是,通过计算标准偏差,你将能深入了解游戏、机制或关卡等方面的更多信息。具体而言,以下是通过测量标准偏差所能获取的若干有益数据:
1.玩家玩每个关卡的游戏时间
2.玩家玩整款游戏的游戏时间
3.玩家打败一个经典的敌人需要经历几次战斗
4.玩家收集到的货币数量(游戏中有一个意大利水管工)
5.玩家收集到的吊环数量(游戏中有一个快速奔跑的蓝色刺猬)
6.在教程期间时间控制器出现在屏幕上
误差
误差与统计结果之间存在着紧密的联系。以盖洛普民意测验为例,这种调查项目(游戏邦注:美国舆论研究所的一项调查活动)在每次进行时都会产生误差,例如误差范围通常在±2.0%之间。由于民意调查需要通过样本数据来推算整体人口情况,因此完全的精确性是无法实现的。而零误差的出现则意味着调查结果达到了极高的精确度。若你所提及的群体规模超过了你的样本规模,你就必须留意误差出现的概率。
若你以全体民众为数据基础,便无需担忧误差问题——既已掌握所有数据!譬如,若我询问路过的行人他们偏爱象棋还是围棋,便无需顾虑误差,因为这些人即为我所收集的全部信息来源。然而,若我打算根据这些街头行人的回答来概括镇上每个人的意见,那么我必须对误差进行评估。
样本数量增多,误差值最终会相应减小。数据量越大,质量越佳。
置信区间
您能够借助推论统计对未来的数据进行归纳总结。其中,一种极为高效的手段是计算置信区间。从理论层面分析,置信区间与标准差之间存在着紧密的联系,它通过特定的数学模型来体现我们对某一特定数据落在特定区间内的确定性程度。
置信区间,是指运用特定的数学模型,来表述“我们有A%的把握,确保B%的数据落在C至D之间的区间内。”
尽管这个概念听起来颇为复杂,但我们仍需明白,只要我们拥有足够的信心,就能创造出任何价值。以我之前那份虽然令人愉快却未能带来满足感的工作为例:
我以前从事的是应力分析与飞机零件设计的职业。若你有所了解,或者说你理应知晓,飞机,尤其是商用飞机的制造,采纳了现代交通工具中最苛刻的建造方式。人们常常忧虑机翼会从机身脱落。
在担任飞机建造工程师的职位上,我们采用的一种策略是依据材料的优势特性来确定一个较高的置信范围。在飞机设计领域,传统的置信范围被称为“A基值许可”,这意味着我们必须有95%的把握,确保所使用的任何一种特定材料,其价值有99%的概率位于某个特定的区间内。随后,我们将依据这一价值以及可能遭遇的最恶劣的气象条件来进行设计,并最终确定一个最优的安全要素。
当你迫切需要探求某个数据的具体数值时,置信区间便成了你不可或缺的助手。庆幸的是,在游戏世界里,我们无需面临生死抉择。然而,若你渴望对一款主机游戏进行优化平衡,那么在游戏设计阶段,你便需倾注更多的情感与直觉。通过计算置信区间,你将能更深入地洞察玩家如何操作你的游戏,从而更准确地评估游戏设置是否合理可行。
无论何时你打算估算置信区间,备选的统计方法都适用无误:数据量越大越佳。你的样本里包含的数据点越多,你所得到的置信区间质量也就越高!
你不可能做到100%的肯定
这便引出了另一个统计规则:
并非存在绝对之数:我们无法构建一个完全确信的置信区间。无法确保通过推理统计手段,就能准确预测某个数据点的具体数值。
在《魔兽世界》这款游戏中,面对任务挑战,玩家唯一能确信的便是死亡、税收,以及永远无法寻找到传说中的Yeti Hide。因此,玩家只需接受这些既定事实,然后勇敢地继续前行。
滥用
我之前已经提及,统计这门技艺实为邪恶。为了深入阐述其缘由,我特此创作了一首寓意深刻的爱情诗篇。
十四行诗1325:这美好的统计,让我逐一细数,那些我对你滥用的种种方式。
1.误解
2.未明确置信区间
3.只因为不喜欢而丢弃了有效的结论
4.基于有缺陷的数据而做出总结
5.体育实况转播员的失误——混淆了概率和统计错误
6.基于一些不相干元素做出总结
误解
人们一直在误解统计报表。我知道,这一点让人难以置信。
未明确置信区间或误差
置信区间与误差构成了信息中的关键要素。在过去的一个月里,有高达43%的电脑用户购买了一款可下载的游戏,这一数据伴随40%的误差;而与此相似的表述,若误差仅为2%,其差异便显得尤为显著。倘若忽略了误差的存在开元ky888棋牌官方版,结果可能会变得极为不利。我们必须时刻铭记,样本量小往往意味着误差较大。
只因为偏见而丢弃了有效的结论
若操作得宜,数据所呈现的事实不会说谎。然而,人们却常常陷入自我欺骗的陷阱。在政治领域,此类现象屡见不鲜,人们往往因研究结果与自己预想不符而选择忽略数据。在焦点小组讨论中,这种现象同样存在。当然,政治领域内滥用统计结论的情况也时有发生。
基于有缺陷的数据而做出总结
这种情况在市场调查领域尤为常见。你的统计数据往往受限于所收集的数据质量。一旦数据存在瑕疵,得出的结论便难以信赖。导致数据不完善的原因众多,比如操作失误和严重的技术问题。而提出引导性问题时,往往能轻易地诱导出支持不同结论的缺陷数据,这正是你期望的结果。询问你是否更偏爱产品X还是质量不佳的产品Y,这样的提问往往能迅速引发出反驳性的回应,例如:“高达95%的消费者更倾向于选择产品X!”
体育实况转播员的失误
体育赛事的解说员在当今时代堪比巫师。他们搜集各类数据、概率和情绪,将这些元素融合,往往得出一些令人失望的结论。若想目睹一些缺乏依据的统计数据,只需观看一场足球比赛即可。
在类似的情况下,一位播音员可能会指出:“A队在末段五轮对决中未能有效抵挡B队的攻势。”这样的表述可能让人误以为A队根本无法阻止B队的进攻,而非他们在那五轮比赛中确实未能成功拦截。然而,换个角度来分析——或许他们即将改变这一状况,因为在此之前,他们从未能阻挡过任何一支队伍。
然而,实际情况是,根本找不到充足的数据来证实任何一种观点。或许这更多是源于一种推测。进攻能否被阻止,是否仅仅因为一方在过往的比赛中曾经采取过类似行动?这两者或许是完全独立的事件,除非它们之间存在某种相互作用的因素。
但这并不意味着所有体育竞技的结论都存在不足之处。以棒球为例,统计数据就扮演着至关重要的角色。在有些情况下,统计分析甚至会对球的飞行轨迹或击球位置等关键因素产生影响。
结果最终还是依赖于数据:一旦数据充足,我们便可以得出更精准的统计结果。棒球赛事能够提供丰富的数据信息:每个赛季大约会有两百多场比赛展开。然而,足球赛事的场次则相对较少。因此,我们得到的误差相对较大。尽管如此,我并不认为统计对足球毫无价值,只是我们难以找到与背景相关的有用数据。
基于一些不相干元素做出总结
人们常常对统计报表产生误解。相较于分析对比关系,我们更倾向于臆测一些并不真实存在的深层联系。我特别喜爱的一个例子是关于飞行面条怪物信仰的《致堪萨斯州学校委员会的公开信》中提到的“海盗与全球变暖”的图表:
请访问venganza.org网站,点击“关于”栏目,再选择“公开信”选项,即可查阅相关信息。
我们是否能够开始解答问题了?
问题1的答案—-关卡时间
这一问题的解答并不复杂:你缺乏充分的数据来计算平均值。在1分24秒至2分32秒的区间内波动的数值,并不意味着这些数值的平均值就是2分钟。虽然这两个数值的平均值为1.97分钟,但我们不能忽略其余18个结果。要准确估算平均值,你必须了解全部20个数据点,并且还需要计算标准偏差。
问题2的答案—-后续关卡时间
此刻你或许并未感到满意,因为标准差数值偏高,已超出平均数的40%。从这个角度看,你的关卡中包含诸多变量。此外,还有一些可以利用的潜在要素,技能型玩家能借此优势获得益处。或者,你还可以对缺乏技能的玩家实施严厉的惩罚。作为游戏设计师,你的核心任务在于评估这些结果(其变量性极高),看它们是否满足既定的预期标准。
问题2的答案—-标准偏差值
统计仅是您所采纳的手段之一,同时您还需掌握游戏设计的技巧。这样,由于计数分组过于紧密,我们往往能得到一个较小的标准差(500除以52000等于1%),这表明您所获得的分数几乎无甚差异,换言之,在游戏最终结果中,玩家的技能水平并不会对结果产生显著影响。当玩家察觉到技能的提升并不能带动游戏得分水平的增长,他们往往会选择离开游戏。
因此,在这种情形下,你更倾向于观察较大的标准差,只有这样,游戏得分才能随着技能水平的提升而相应增长。
问题3的答案—-游戏时间
这无疑是一个不易取得的数字,然而,它揭示了数据搜集过程中的一个关键点:我们必须对那些看似错误的数据保持警惕。例如,0.2小时这个数值就明显显得可疑。这可能是由于排版失误,亦或是设备故障所导致开元ky888棋牌官网版,究竟是什么原因,实在难以确定。无论如何,在展开各项计算之前,你必须坚信0.2小时是一个可靠的数据指标,或者你也可以选择舍弃这一数据,转而依据剩余的数据点进行推算。
其它有趣的内容
为了确保文章篇幅适宜,我不得不舍弃诸多引人入胜的议题。在此,我需着重指出,掌握统计学知识不仅能提升你的游戏设计水平,还能在消费者选择、投票选择以及财政决策等方面提供助力。我对自己的观点充满信心,敢以23.4%的几率担保,我所阐述的观点中至少有40%是准确的。
设计师可以通过统计方法,收集到记录在案的游戏过程(样本)中的数据,进而协助他们归纳出关于更大规模未记录游戏过程(人口统计)的总体结论。
在实践中学习
在我刚刚完成的游戏里,我采用了记录游戏进程相关数据的方法,并依据这些数据所生成的平均数和标准差来设计游戏中的挑战关卡。我们将中等难度的关卡设定为与平均数相等,将较简单的关卡定位在平均数减去一定的标准差,而将较难的关卡定位在平均数加上一定的标准差。只要我们能够收集到尽可能多的数据,我们的统计分析就会变得更加精确。
如同概率论所述,随着项目规模的日益扩大,统计数据的应用愈发显得重要。在多数情况下,你能够凭借个人经验进行探索,无需依赖特定的理论。然而,当游戏规模扩大、玩家基数增多以及预算增加时,你必须做好心理准备,去应对那些可能存在的、仅依赖直觉设计的游戏中的固有不足。
务必铭记,统计数据与概率无法直接主导游戏设计,它们充其量只能作为辅助手段。
游戏邦指出:该文是在2007年1月24日发布的,文中提及的事件与数据均基于那时的实际情况。
via:游戏邦/gamerboom