大数据面前,统计学的价值在哪里

频道:生活应用 日期: 浏览:42

发言人:朱利平 发言场所:国家图书馆国图讲坛 发言年份:2019年2月

大数据时代统计学的重要性_统计学对大数据的意义_统计学应用生活例子

三月八日,呼和浩特居民在本地数据运用园区,尝试了数据形象化装置,此照片由光明图片/视觉中国提供。

统计学对大数据的意义_大数据时代统计学的重要性_统计学应用生活例子

朱利平担任中国人民大学统计与大数据研究院副院长及博士生导师,同时也是该校“杰出学者”特聘教授。他荣获国家自然科学基金优秀青年基金,并入选中组部青年拔尖人才计划、教育部新世纪优秀人才计划等多项荣誉。他长期致力于复杂数据分析领域的研究,曾在统计学核心期刊上发表七十多篇学术论文。

统计学对大数据的意义

很荣幸获得这个时机,可以和各位在此探讨统计学和大数据的相关话题,向大家陈述一些看法。

在探讨海量信息之前,我们有必要先明确什么是信息。过去很长一段时间,人们对于信息的认知,或许仅限于具体的数值。近年来,随着海量信息的出现,引发了一些疑问:这种海量信息与我们之前谈论的信息,究竟存在怎样的联系?

数字属于资料吗?毫无疑问属于资料。巨量资料算不算资料?当然还是资料。然而,当今我们对资料的认知范围已大不相同。任何能够转化为数字形态的信息媒介,均可视为资料。譬如我们日常接触的文字,无论是书写的还是打印的,如今都能转化为数字。图像、影像以及声响,现在同样可以转化为数字。各种阿拉伯数字、各类文本、多种图片、各类视频以及各类音频,我们统称为信息资料。如今我们所掌握的信息资料,其来源更加多样,其种类也愈发繁杂。这些源自不同渠道、种类纷繁的信息资料相互交织,汇聚到相当规模时,便可以称作是巨量信息。

我们现在来谈谈统计学,统计学究竟是什么?从学科分类的角度看,统计学已经成为一个独立的学科门类,这一点与数学、法学等学科相同。在《大不列颠百科全书》中,统计学被解释为一种收集和分析数据的学问,同时也是一种技艺。这个定义提到统计学是门科学,这一点很容易明白。那么,为什么说统计学也是一种技艺呢?这个议题,与我今日核心探讨的议题紧密相连,需要加以说明的是,当前美国众多高等学府的统计学学科,其归属并非理学部,而是艺术学部。

当今社会,核心议题在于,面对海量信息,我们是否依然要运用抽样方法开展统计分析工作。

有人觉得,当今计算机技术十分成熟,能够获取庞大信息量。针对特定科研目标,现在我们甚至能借助机器手段搜集所有相关资料。所以如今,抽样统计方法似乎不再那么关键,甚至可以说已经派不上用场了。但这情况真的属实吗?

统计学是一门收集数据的艺术

统计学常被视为处理资料和剖析资料的一种技艺,我们姑且不论其科学性,姑且探讨为何它被看作是汇集资料的一种技艺。

我们考察首个实例。此实例旨在探究十五个国家的民众诚信度。研究者试图明确,哪些国家的民众更常不诚实,哪些国家的民众相当正直。若直接询问受访者:“您是否曾经欺骗过?”绝大多数情况下,难以获取确切回答。倘若受访者过往存在欺骗行为,他们通常不会在意此次也撒谎。受访者或许因多种缘由,不愿透露实情。那么,调查资料如何获取?这绝非仅靠计算机手段、借助某些抓取程序就能轻易搜集到符合研究需求的数据。

怎样借助统计学手段获取信息呢?这就要运用统计学的才能了。研究者们规划了两个不同的试验方案。

调查人员最初在每个国家招募了1000名受试者参与实验,15个国家总计招募了15000人,从这么多不同国家招募人员并实施面对面调查,工作难度极大,因此研究人员最终通过在线渠道找到了这15个国家合计15000名参与者,两个实验均在线上开展。

第一组先进行了一项实验,要求参与者在家中抛掷一枚硬币,该硬币具备两个面相,调查方事先设定,参与者抛掷后需告知实验人员结果,倘若硬币正面显现,将给予十元报酬,倘若反面显现,则无任何补偿,此项实验无需提供抛掷硬币的凭证,仅需告知实验人员抛掷后的状况。这也就是说,受调查者有没有撒谎,只有他自己知道。

调查者对最终结果是有基准的。每个国家有1000人参与实验。通常情况下,1000次抛硬币的实验,大概会有500次正面朝上。如果一个国家的1000名参与者中,有900人声称自己抛硬币时正面朝上,或者全部1000人都声称抛硬币时正面朝上,那么极有可能存在虚报的情况。这是第一组实验。

该组试验具备参考价值,不过未必能完整呈现实际状况,因此研究者又安排了后续的测试。

第二组实验,让参与者回答五个问题,这五个问题在回答前,要求参与者保证,不能为了答题而查找任何资料,也不能寻求任何协助,也就是说,看过这五个问题后,参与者必须马上给出答案,调查者承诺,如果五个问题中,答对四个或以上,就奖励给参与者十元,如果答对三个或以下,则没有奖励。

这五个问题里,有三个相当容易,比如一加一等于几那么简单。剩下的两个则非常罕见,除非受访者翻阅资料或询问他人,否则几乎无法作答。所以,要是有人答对了那两个难题,十有八九是违背了原先不查阅资料不寻求帮助的承诺,这表明他在这件事上不太老实。

统计工作者借助这两项实验的成效,彼此印证。这两份信息的采集流程,都极好地展现了统计方法在信息获取方面的巧妙之处。

因此,即便在信息爆炸的时期,也不是配备了计算机和网页抓取工具,就一定能获取到符合研究需求的所有资料。统计学是一门关于数据采集的学问,围绕特定的探究目标,构思精巧的数据获取计划,本身就是一种极具创造性的数据收集活动。

再来看一个案例。这是美国麻省理工新近完成的一项研究,大约在2018年得出结论,研究结果已经公开。这项研究的意图是探究当下人们的婚姻看法,共有一百人受邀进入一个与世隔绝的地方进行实验。实验参与者各自会获得一个代号开yun体育官网入口登录app,男性代号的数字为奇数,例如一三五七九,女性代号的数字为偶数,例如二四六八十,依此类推。这100位参与者不清楚自己的编号,也不知晓实际参与人数。他们不清楚这次实验正好由50名男士和50名女士组成。受访者仅知道实验参与者众多。

统计人员运用了一个巧妙的手段,就是让受访者一进门就把编号贴在背上,受访者明白自己有编号,却不知道具体数字,不过他可以看到其他人背上的编号,实验规定,允许100人中的任意两人进行交流,除了不能透露对方背上的编号,其他任何话题都可以讨论

随后,研究者领着那百来号人等进入一个面积狭小的空间,告知他们有五分钟光阴,期间需自行寻找一位异性结成一对,且每人仅能搭档一人。五分钟光阴一到,倘若搭档成立,两人背后数字相加所得乘以十,便是他们能够收获的酬劳。换言之,倘若编号为100的女性遇见了编号为99的男性,他们便能获得金额为二者编号之和乘以十的奖金,具体数额为1990美元开元ky888棋牌官方版,这笔报酬相当可观。倘若身为编号2的女性,却匹配上了编号1的男性,那么你们共同获得的报酬将是(1加2)乘以10,也就是30元,这点钱连一顿饭都支付不起。要是5分钟过后,双方仍未成功配对,你们连一美分都分文没有。所以,参与者需要赶在五分钟期限截止前,在狭窄而拥挤的区域里,迅速锁定愿意与自己搭档的对象。同时,要设法让自己的收益尽可能提高。

研究人员特意将一百名受试者置于狭小空间,目的是既便于部分人迅速识别部分编号,又确保任何人都无法看清全部编号,拥挤环境本身就会导致部分编号难以被观察到。

实验开始了。

很快,有些人察觉到,当自己持续尝试与多人匹配三到四次后,总是遭到对方拒绝,这种情况很可能反映出,自己账户里的等级分值偏低,难以吸引他人关注。针对这个困境,部分人开始运用特定方法,向心仪对象表达诚意,承诺如果对方愿意与自己匹配,自己愿意将全部奖金赠予对方,因为自己等级不高,奖金对自身意义不大。另有些人表示,倘若这次你与我成功结成对子,外出之后,我会另外请你吃顿饭。

另外还有一部分人,尽管不清楚自己背上的标记是多少,却察觉到周围聚集了许多人,因此很快领悟到,自己背上的标记极有可能是相当高的数字,然而确切的数值是多少,他无从知晓,而且必须设法让两个人合成的数字尽可能达到最大值。他迅速筛掉了所有能识别编号的对象,因为他确信后面会有更高号码的,却不清楚最高是多少,又必须在五分钟内选定搭档。

实验表明,编号99的男性未能与编号100的女性成功配对,编号100的女性最终选择了编号八十几的男性。处于中间位置的多数人,基本都找到了与自己条件相仿的另一半。这样的配对情况,与中国传统观念中讲究的“门当户对”十分吻合。

我们审视这个实验的成效,它大体上与中国男女婚恋态度的实际情况相仿。举例来说,参与者由于自身排序靠前,便愿意让渡自己的报酬给对方,甚至许诺事后宴请对方,目的是促成成功匹配,这与现实中“我的个人条件略逊一筹,但我父母若同意我们结合,会赠予我们一套房产”的许诺颇为相似。此外我们日常生活中观察到,众多出类拔萃的男士女士,他们身边总是围绕许多仰慕者,然而他们并未觅得理想的“灵魂伴侣”。

这个数据的收集过程也是非常漂亮的。

数据并不是越多越好

数据统计属于一种信息汇集的学问,但信息量并非越大越佳,这一点尚存争议。

人类历史上有个典型事例。距今约五百年时,丹麦有个天文学家叫第谷,他向当时的丹麦君主申请了一笔经费,用其建造了一个观测场所。第谷每日去观测各个行星的运行路径,并且把每一天的观测结果都记在案。就这样第谷持续观测了二十年,积累了海量的观测资料。但这些资料实在太过庞杂,第谷投入了无数时间和心血去研究,却始终找不到其中的规律性。

此时,有个名叫开普勒的人登场了。开普勒觉得,第谷每日观测,一年之中每颗行星都会产生365组数据,这样二十年的观测资料累积起来,需要分析整理的数据量就极为庞大,而且那个时代的分析工作只能借助手工计算,这种处理任务实在太繁重了。开普勒提出,每年能否只提供一个观测值,例如仅告知1月1日地球、土星和太阳各自的坐标位置等。经过20年的数据筛选,每颗行星的记录将简化为20项。开普勒明白地球每365天会重合于原位,因此将地球位置视为参照基准,进而研究其他行星与地球的相对位移关系。开普勒将地球视为静止点,考察了其他行星位置长达二十年的观测资料,由此推导出这些行星的运行路径。他进一步观察到,只要地球位置保持不变,将其他行星二十年的运行轨迹绘制出来,便会发现所有行星都围绕太阳公转,其运行轨迹呈现椭圆形。基于这些发现,开普勒总结出了行星运动的规律。

这个显著的宇宙现象表明,资料过于繁杂会造成信息密度过高开yunapp体育官网入口下载手机版,反而让探寻模式的过程更加困难,因此必须借助严谨的科研手段对资料进行精简处理。

与此相关的实例并不少见,比如美国总统富兰克林·罗斯福,他成为美国历史上唯一一位连任四届的领导人,在1932年首次入主白宫,当时美国与其他多个国家正经历经济困境,罗斯福承受的负担相当沉重,因此在1936年他寻求连任第二任期时,许多美国人认为他难以再次当选。罗斯福那次竞选时,主要对手是兰登。当时有两个机构预测总统选举结果,一个是《文学文摘》杂志。这本杂志影响力很大,因为它之前几次准确预测了总统选举结果。1936年美国总统选举时,文学文摘进行了大规模调查统计,共调查了240万人。采用的方法是在出版物中放置针对国家领导人角逐的民意测验表,再汇总民众的回应。当时文学文摘实施调查的参与人数,实际上超越了两百四十万之数,数量上还要超出一些,但最终获取的有效答卷恰好是二百四十万份。正是依据这份测验的结论,文学文摘机构宣告他们预判兰登会击败罗斯福,在选举中胜出。

另有一个组织,具体是一个年轻人,名叫盖洛普,他的推测与文学文摘的推测完全不同。最初盖洛普进行这类调查统计,是因为他的母亲要参选众议员,他是协助母亲,因此在预算有限的情况下对较少人群进行了相关调研,后来这个调研成果显著,他母亲成功当选众议员。他随后打算弄清楚罗斯福与兰登究竟会获得1936年选举的胜利,然而他无法企及文学文摘那般雄厚的财力,因此仅对五千人进行了询问,依照这五千人的询问反馈,盖洛普预判罗斯福将当选。

结果罗斯福果然成功连任总统,盖洛普的预测胜利了。

这项选举结果公布后,《文学文摘》杂志的公信力受到了严重损害:该杂志曾对240万民众进行调查,却得出了错误的结论,相比之下盖洛普仅调研了5000人,其预测却十分精准。因此,《文学文摘》最终因这一事件而停刊。而那位年轻的盖洛普,则借此创立了专门的民意调研机构,也就是今日的盖洛普咨询公司。

此事已成定局。为何针对五千人的预测,其精准度会超越对二百四十万人的调研?暂且不论二百四十万这样庞大的数据量,它在规模扩张后会造成运算速度的迟缓,也无需提及此类大规模数据采集会引发开销持续攀升的弊端。症结所在,在于当时文学文摘借助杂志附赠问卷展开调查的途径。当初问卷是夹在杂志里分发的,文学文摘收到的240万份有效问卷,其实全都来自订阅该刊物的用户。那么,当时订阅这种杂志的家庭通常是什么样的呢?一般来说,都是经济条件较好的家庭。因此,文学文摘虽然声称调查了240万人,但它调查的主要对象,是当时美国国内相对富裕的那部分人群。而穷人群体的意见,它这个调查实际并没有覆盖到。

数据数量多并不一定意味着结果精确,只有收集到的信息质量高、具有普遍性,才有可能得出精准的结论。

统计学是一门分析数据的艺术

先前列举了若干情形,告诫我们设计数据采集方案时务必谨慎。数据采集完成后,还需进行数据分析工作。依据大不列颠百科全书的相关论述,统计学亦属于数据解析的技艺。

谈及数据研究,在此仅阐述两项核心范畴:关联性及因果性。之所以探讨这些范畴,缘于公众时常将二者相混淆,常把关联现象当作因果现象。在诸多科学探究与政策效果衡量场合,我们更注重因果联系。然而,一旦察觉某种关联模式,人们便易将其当作所期盼的因果效应。

譬如说,在古代欧洲,很多人认为,虱子对人的身体是有益的。因为当时人们观察到,生病的人身上很少见到虱子,而健康的人身上反而有很多虱子。这是通过长时间的观察,逐渐积累形成的经验。在欧洲中世纪时期,人们长期依据某个现象,形成了一种推论关系:身上有虱子的人,往往身体强健;而身上没有虱子的人,则通常体质较弱。

那个时期,确实有人注意到,身上有无虱子与人是否健康之间存在着某种联系,不过,这是否就是直接的因果关联呢?自从有了体温计,大家才明白,这并非严格意义上的因果关系,原因是,虱子对人的体温特别在意,它只能在很窄的温度范围内存活,而人一旦生病,很多时候会出现体温升高的现象人一旦体温升高,温度就会波动,寄生虫无法耐受发烧时的热度,因此会离开。我们如果只注意到身体是否健康和寄生虫数量多少之间有联系,那实际上只是两种现象有关联,并非真正有因果关系。类似的情形还有很多,比如每年冰淇淋销售量上升的同时,各地不幸溺水身亡的人数也在增长。那么这两件事是否真的存在因果关系呢?根据一般认知,情况并非如此。实际上,每年气温上升之后,参与游泳活动的人会逐渐增多,导致意外落水身亡的事件也相应上升。与此同时,气温的升高也会促使冰淇淋的销售量增长。

换言之,假如某个变量发生细微波动,另一个变量也相应地出现变动,那么两者或许存在关联性,然而这种关联性,并不能证明二者形成了因果联系。

怎样识别因果联系呢,这要求我们格外谨慎,并且要巧妙地运用数据研究方法,归根结底还是要借助统计学的原理。

此处,我们以历史上的某种病症为例,它就是小儿麻痹症,亦称脊髓灰质炎。当前,人们能见到的此类病例十分有限,缘于如今已有对应的预防措施。在往昔,脊髓灰质炎曾是一种令人极度恐慌的病症。

1950年代,美国某大学实验室研发出一种针对该病症的预防制剂,证实其在实验环境中可激发有效免疫反应,但未明确该制剂在实际大规模应用中的效能,因此美国政府决定开展试验,时间约在1954年儿童是脊髓灰质炎的主要感染者,因此实验对象选定为小学低年级学生。如何验证疫苗的实际效果呢?为确保统计数据准确体现因果关系,当时设计了五种实验计划。

第一种计划是,由于1953年之前未曾存在该疫苗,因此从1954年起,需为所有的一至三年级学生接种,随后观察,1954年的患病情况与1953年相比,是否存在差异,此方法虽可行,却存疑虑,毕竟历年脊髓灰质炎的发病波动幅度颇大。譬如1951年美国或许会有3万例脊髓灰质炎病例,1952年可能增至6万例,到了1953年或许会回落至不到4万例的数量。这种疾病每年的发病情况变动幅度很大,倘若届时实验数据落在3万到4万例之间,便难以判定这是否属于自然波动,抑或是疫苗产生了效果。

第二种计划建议以地域为标准实施。举例来说,针对纽约区域的学龄儿童,将安排全部完成免疫接种,而芝加哥区域的儿童则不实施接种。接着会对纽约和芝加哥这两个地区的脊髓灰质炎患病状况进行数据收集和分析。但这个计划最终被证明同样不可行。脊髓灰质炎属于传染性疾病,某个区域可能爆发此病,而邻近区域却未必,因此两地数据对比存在出入,但这并非疫苗作用所致,彼此间缺乏参照价值。

有人随后构思了第三种思路,当时接种这种疫苗,无人知晓是否会产生不良后果,因此存在潜在危险,于是该思路主张由接种儿童的家长们自主决定,部分家长同意让孩子接种,部分家长则拒绝,这样同一批孩子中就会形成不同的参照组,然而这种方式也并非没有缺陷后来大家注意到,患小儿麻痹症的人大多出身富裕家庭。经济条件欠佳的家庭,由于生活环境和卫生状况不佳,成员可能较早接触过脊髓灰质炎病毒,甚至可能在出生时便已感染,但新生儿拥有来自母体的免疫保护,借助这种免疫力,婴儿在接触病毒后能形成抗体,因此不会发病。那个时期的数据已经显现出一种趋势。富裕家庭更倾向于让孩子接种,而经济条件较差的家庭,因为资金限制,又意识到自身群体感染风险相对较低,或许就不会选择接种。这种现象给实验结果带来了干扰,难以分辨是疫苗起效还是经济因素导致了差异。

接下来是第四种设想。有建议表示,仅安排二年级学生接受接种,而让一年级和三年级学生暂不参与。随后对比已接种与未接种学生之间的状况,观察他们的病发率是否存在不同。该设想由当时的脊髓灰质炎防控小组提出。然而此方案同样不可行,首要原因是它依然无法排除接种儿童家庭经济条件不同所引发的患病几率差异。脊髓灰质炎属于传染性疾病,患者年龄对其传播存在关联性,一至三年级学生年龄段各不相同,或会造成各年级间患病风险的区分。不仅如此,该计划还存在一个关键性问题,即可能对医疗从业者产生认知上的引导。依照这个计划实施,医务人员是心知肚明的,一、三年级的学生没有接种预防针,而二学年的部分学生已经接种了预防针。那个时期脊髓灰质炎的确诊比较困难,假如医生已经掌握了这个免疫计划,并且事先了解这个疫苗在实验中效果显著,那么当面对一年级学生时,如果这个疾病暂时无法确诊,那么这位医生很可能会凭借“一年级学生没有接种免疫剂”“疫苗具备效力”这两个既定认识,直接断定这名一学生感染了脊髓灰质炎。而且这种区别对待的方案,接种的学生本身心理也会受到影响的。

先前还存在一个第五种计划,这个计划就是最终被实施并选用的调查方案,方案内容是,在获得学生家长许可之后,仍会告知家长,即便家长同意孩子接种疫苗,实际上给予孩子的未必是疫苗,而是一种形似疫苗的安慰剂,这种安慰剂没有副作用,也没有实际作用。这个安慰剂在外观上与疫苗完全相同,导致医生和学生无法分辨实际接种的是疫苗还是普通安慰剂,然而疫苗的供应方清楚真相,因为他们给每种药品都分配了唯一标识,所以供应方能够明确区分哪些是安慰剂,哪些是真正的疫苗,借助这种方法,实验室得以采用随机原则进行疫苗接种,同时确保无论个人经济状况如何,接种过程都是随机分配的。医生们同样不清楚,具体哪些儿童接种了疫苗,因此排除了年龄、经济状况等干扰因素,有利于明确脊髓灰质炎和疫苗之间确凿的联系。

1954年,这项研究涉及约74万名小学生。实验表明接种疫苗后,儿童感染小儿麻痹症的风险约为每十万分之28。而未接种疫苗者,感染风险则高达每十万分之77。两者之间的差距超过一倍。此后,经过持续努力,脊髓灰质炎疫苗最终在美国获批使用。

很多科研成果和政策判断,都要求进行因果推断而非关联性研究。统计学能协助我们确立必要的因果联系。真正的因果联系,往往不能单凭关联性来证实。许多科学探索,仍需我们寻找本质的因果关系。统计学在此过程中,既能提供数据搜集的指导,也能给予分析方法的帮助,这正体现了统计学的独到之处。

《光明日报》( 2019年03月30日 10版)

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。