大数据面前,统计学的价值在哪里

频道:生活应用 日期: 浏览:33

统计学与大数据的关系_统计学在大数据时代的重要性_统计学应用生活例子

三月八日,呼和浩特居民在本地数据应用园区,试用数据直观展示装置,图片来自光明图片/视觉中国

统计学在大数据时代的重要性_统计学应用生活例子_统计学与大数据的关系

朱利平担任中国人民大学统计与大数据研究院副院长,同时也是博士生导师,并且是该校“杰出学者”特聘教授。他获得了国家自然科学基金优秀青年基金的资助。朱利平还入选了中组部青年拔尖人才计划以及教育部新世纪优秀人才计划。他长期致力于复杂数据分析领域的研究,曾在统计学权威学术期刊上发表超过七十篇学术论文。

统计学对大数据的意义

很荣幸获得这个时机,可以和各位在此探讨统计学及大数据的相关事宜,并且向各位陈述一些看法。

在探讨大数据之前,有必要先弄清楚数据的含义。过去很长一段时间,人们对于数据的认知,或许仅限于数字符号。近年来,大数据的概念逐渐兴起。随之而来的是,部分人产生了疑问:这种被称为大数据的事物,与我们以往所说的数据之间,究竟存在怎样的联系?

数字属于资料吗?当然属于资料。巨量资料算不算资料?当然还是资料。如今我们对资料的认知范围更加开阔了。所有能够转化为数字形式的内容,都可以看作资料。比如我们接触的文本,像日常看到的一些字,现在都能转化为数字。我们看到的图像、影像和声响,现在也能转化为数字。各种信息,诸如数字、文字、图像、影像和声响,我们统称为资料。如今我们所说的资料,其来源更加多样,种类也愈发繁杂。这些来源各异、种类繁多的资料汇集起来,一旦形成相当规模,便可以称作海量信息。

现在我们谈谈统计学,统计学是什么?首先,从学科分类上看,统计学已经成为一级学科。这一点和数学、法学等学科相同。大不列颠百科全书对统计学给出了解释,称其为一门收集数据、研究数据的学问和技艺。解释中提到统计学是一门学问,这点容易明白。那么为什么说统计学也是一种技艺呢?这件事,与我今日重点探讨的一个议题密切相关。顺便一提,当前美国众多大学的统计学学科,其归属并非理学部,而是艺术学部。

今日核心探讨一个议题:信息爆炸时期,统计方法是否仍需依赖抽样技术进行数据评估。

有人觉得,当今计算机技术相当成熟,能够处理大量信息。针对特定研究目标,现在我们甚至能借助电脑手段获取所有相关资料。因此,如今抽样统计方法似乎不再那么关键,甚至显得不再必要。但这事实究竟是否准确呢?

统计学是一门收集数据的艺术

统计学常被视为囊括数据汇集与剖析的技艺,我们姑且将科学层面搁置,进而探究其为何被视为数据汇集的技艺。

我们考察首个实例,此实例旨在探明十五个国家的民众诚信状况,调查者意在查明,哪些国家的民众更常不诚实,哪些国家的民众非常正直,若直接询问受访者是否曾经欺骗过人,绝大多数情况下难以获取确切信息,因为受访者若有过欺骗行为,通常不会在乎再次说谎受访者或许因多种缘由,不愿透露实情。那么,调查资料如何获取?这显然无法仅靠计算机手段,或借助某些抓取工具,便轻易获取到符合研究需求的资料。

怎样借助统计手段来获取信息呢?这就要运用统计学的巧妙构思了。研究者们规划了两个不同的测试方案。

调查人员最初在每个国家招募了1000名参与者接受测试,涉及15个国家,总计寻找了15000人,跨国家寻找如此多的受访者进行面对面访问,这一过程极为复杂,因此研究团队借助网络平台,从这15个国家中招募了15000名受访者,两个实验均通过互联网实施。

第一组先进行了一项实验,要求受访者在家中抛掷一枚硬币,该硬币具备两个不同的面,实验人员事先设定,当受访者完成抛掷动作后,必须通知研究者具体情形,倘若硬币显现正面,将给予受访者十元报酬,倘若硬币呈现反面,则无任何物质补偿,本次实验无需提交抛掷硬币的凭证,仅需要受访者向实验人员陈述抛掷后的状态。这也就是说,受调查者有没有撒谎,只有他自己知道。

调查人员对最终数据是有基准的。由于每个国家有一千名参与者接受测试。通常情况下,一千次抛硬币的实验,大概会有五百分数结果为正面。如果一个国家的参与测试的一千个人里,有九百人声称自己抛出的硬币正面朝上,或者一千人都说抛出来的是正面。那么,极有可能这些人中存在不实陈述。这是第一组实验。

第一组的实验很有意义,不过它未必能完全展现实际情况,因此调查人员又进行了第二组实验。

第二组实验包含五道问答题,参与者在作答前需保证独立完成,不得借助任何外部信息或他人协助,须当场给出答案,不得延迟。答题者需知晓评判标准:若答对四题及以上,将获得十元奖励;若答对三题或不足三题,则无奖励。

这组问题里,有三种特别容易,就像一加一等于几那么简单。其余两个则相当罕见。受访者若不参考信息或询问别人,几乎无法解答。所以,要是有人答对了那两个难题,十有八九违背了原先不借助外力的保证,因此可以判断他在这件事上不够诚实。

随后统计工作者借助这两项实验数据,彼此印证。这两份资料采集的流程,都十分鲜明地展现了统计学在资料获取上的高明之处。

因此,即便在数据量巨大的时代,也不是因为有了计算机和爬取技术,我们就能获取到所有符合研究需求的数据。统计学是一门收集数据的技术,为了特定的研究目标,精心策划数据收集计划,就是一个极具创造性的获取数据过程。

再来看一个案例。那是美国麻省理工近年在2018年左右完成的一项研究,其成果已经公布。这项研究旨在探究当下的婚姻观,邀请了100人进入封闭环境参与。实验过程中,每位参与者都会获得一个代号,男性分配单数编号,如一三五七九,女性则分配双数编号,例如二四六八十,依此类推。这100位参与者对自己的编号一无所知,同时也不清楚实际参与实验的人数。换言之,他们并不知晓这次实验恰好有50名男士和50名女士,而他们仅了解到实验参与者数量众多。

统计人员在此使用了一个巧妙的手段,具体做法是当受访者进入时,将编号固定在他们背部,受访者意识到自己被分配了编号,却不清楚具体数字,却可以观察到其他人的编号。实验规定,在100名参与者中,任意两人可以自由交流,唯一限制是不能透露对方背部的编号,其他任何内容都可以讨论。

接着研究者把那100位参与者领进一个面积很小的空间,告知他们有五分钟时间,期间需要自行寻找一位异性组成一对,每个人只能搭档一个。五分钟时限一到,只要配对成功,两人背后数字相加的结果再乘以十,就等于他们可以获得的报酬。换言之,倘若编号为100的女性遇见了编号为99的男性,他们便能获得金额为二者编号之和乘以10的酬金,具体数额为1990美元,这笔报酬相当可观,值得期待。然而,假如一位女性的编号是2,而她配对的对象是编号1的男性,那么他们总共只能拿到(1加2乘以10)计算出的30美元,这点钱用来请客吃饭恐怕都显得捉襟见肘,难以满足基本需求。倘若五分钟后仍未成功配对,便连一美分也得不到了。所以参与者务必在五分钟内,于狭窄拥挤的区域,迅速寻找到愿意与自己配对的个体。并且在此期间,需竭力提升自己的奖金金额。

实验人员特意将100人置于狭小空间,目的是让部分编号能迅速被看见,同时确保任何人都无法看到全部编号,因为拥挤环境会遮挡视线,导致某些编号根本无法被观察到。

实验开始了。

很快有些人就察觉到,自己反复尝试与多人匹配,却屡次遭到拒绝,这可能意味着自己的编号数值偏低,难以吸引对方关注。为此部分人开始运用特定方法,向对方表明,若对方愿意与其匹配,自己愿意将全部奖金赠予对方,因为反正自己的编号并不占优,钱财方面无需计较。另外有说法称开元ky888棋牌官网版,倘若你这次同我结成伙伴并且顺利,外出活动时我会另外邀你用餐。

还有一部分人,尽管不清楚自己背上的标记是多少,却注意到许多他人正围拢过来,因此很快推断出,自己背上的标记数值或许相当可观,然而确切数值究竟几何,依旧不得而知,而且务必设法让两个人拼凑起来的结果尽可能庞大。他迅速淘汰了所有能看见编号的对象,因为他觉得后面肯定有更高数字的,但他不清楚最大编号是多少,又必须在五分钟内确定配对对象

实验表明,编号99的男性未能与编号100的女性成功结合,该女性最终选择了编号八十几的男性。处于中间位置的多数人,通常会和条件相仿的人结为伴侣。这一现象,与中国固有的门当户对观念十分契合。

我们审视这个实验的成效,其大体上与中国男女婚恋取向的现实状况相吻合。举例来说,参与者由于自身排序靠前,便愿意转让自己的报酬给对方,甚至许诺事后宴请对方,目的是促成成功配对,这种情况同现实里“我的个人条件稍逊,但我的家人若同意我们结合,会赠予我们一套房产”的许诺颇为相似。此外,现实生活中我们也能看到,许多出类拔萃的男士和女士,他们周围总有很多仰慕者,不过他们并没有觅得心仪的“理想伴侣”。

这个数据的收集过程也是非常漂亮的。

数据并不是越多越好

数据统计确为一种汇集资料的方法,然而资料汇集得越多,是否就一定更有价值,这一点难以断言。

曾有个广为人知的案例。距今约五百年时,丹麦有一位天文学家名叫第谷,他向当时的丹麦君主申请到一笔资金,并以此建造了一个观测站。第谷每日坚持观测各个行星的运行路径开yun体育官网入口登录app,同时将每日的观测结果详细记载。就这样,第谷持续观测了二十年,积累了海量的观测资料。然而,这些资料数量庞大,第谷投入了无数时间和心血进行分析,却始终未能从中找出任何规律性。

此时,有个叫开普勒的科学家登场了。开普勒觉得,第谷每日观测,每年每颗行星都能产生365组数据,如此20年观测积累下来,需要分析整理的数据量极为庞大,并且那个时代的数据分析只能通过人工计算,这种处理任务太过繁重。开普勒提出一个建议,希望每年只需获取一个观测值,例如仅记录地球在1月1日的坐标,以及土星和太阳的相应位置等。经过20年的数据积累,这样每颗行星的资料就简化为20个点。开普勒意识到地球大约每365天会重合到同一参照点,于是将地球的位置视为基准,进而研究其他行星相对于地球的运行轨迹。开普勒将地球视为静止点,研究其他行星位置长达二十年,由此掌握了它们的运行路径。他进一步发现,只要地球位置保持不变,绘制其他行星二十年的运行轨迹,就能看到这些行星都绕着太阳公转,且运行路径呈现椭圆形。基于这些观察,开普勒总结出了行星运动的规律。

这个显著的宇宙现象表明,资料过于庞杂会使信息变得繁重,反而让发掘模式更加困难,因此必须借助严谨的科研手段来精简资料。

与此相关的实例并非少数。例如美国总统富兰克林·罗斯福。他堪称美国历史上唯一一位四度出任国家元首的人。1932年,他初次入主白宫,彼时美国及众多邦国正经历经济困境,罗斯福承受的负担相当沉重。于是到了1936年,当罗斯福谋求连任第二任期之际,国内许多观察家认为他连任的前景不容乐观。那一次,罗斯福的竞争对手是兰登。当时有两个机构预测总统选举结果,一个是《文学文摘》杂志,它当时很有影响力,因为该杂志过去几次准确预测了总统选举结果。1936年美国总统选举时,文学文摘进行了大规模调查统计,共调查了240万人。操作方法是将涉及总统选举的问卷插入杂志中,再汇总回访信息。当时文学文摘实际调查的人数超过240万,实际参与人数还要大些,但最终有效回收的问卷数量为240万份。正是依据这份调研数据,文学文摘最终宣布他们预判兰登会击败罗斯福赢得选举。

另有一个组织,具体来说是一位年轻人,名叫盖洛普,他的判断与文学文摘的判断完全不同。最初盖洛普开展这类调查统计,是因为他的母亲要角逐众议院席位,他是为她提供协助,因此在预算有限的情况下实施了针对较少群体的相关研究,后来这项研究成果非常出色,他母亲成功当选众议员。他随后打算弄清楚罗斯福与兰登究竟会在1936年选举中胜出,然而他无法企及文学文摘的雄厚财力,因此仅对五千人实施了调查,依据这五千人的反馈信息,盖洛普预判罗斯福将当选。

结果罗斯福果然成功连任总统,盖洛普的预测胜利了。

这项选举结果公布之后,对《文学文摘》杂志的名声带来了严重损害:毕竟该杂志调查了240万名民众,最终却公布了一个不准确的预测,相比之下盖洛普仅调查了5000人,发布的预测却是准确的。因此《文学文摘》因为这个事件后来就停刊了。而那位年轻人盖洛普,就此创办了一家民意调查机构,也就是现在的盖洛普咨询公司。

此事已成定局。为何针对五千人的预测,其精准度会超越对二百四十万人的调研?暂且不论二百四十万这样庞大的数据量,它在规模扩张后会造成计算速度的迟缓,也不必提及这类大规模数据采集会引发开销持续攀升的难题。症结所在,在于当时文学文摘采用杂志附赠问卷的方式进行问卷发放。当初问卷是夹在杂志里分发的,文学文摘收到的240万份有效问卷,其实都来自订阅该刊物的用户,因此,当时订阅这类杂志的家庭通常经济条件较好,所以,尽管文学文摘声称调查了240万人,但它调查的主要对象,是当时美国国内相对富裕的人群。而穷人群体的意见,它这个调查实际并没有覆盖到。

数据数量大并不必然意味着精确,只有采集到的资料品质优良且具备普遍性,才有可能得出精确的结论。

统计学是一门分析数据的艺术

先前列举了若干情形,告诫我们设计数据采集方案时须格外谨慎。数据采集完成之后,还须进行数据分析工作。依据先前大不列颠百科全书所述,统计学亦是一种解析数据的技艺。

谈及数据解析,在此仅阐述两项核心认知:关联性与因果性。之所以说明这两点认知,缘于人们时常将二者相混淆,常把关联性当作因果性。在诸多科学探究及政策效果衡量中,我们更注重因果性。然而,一旦观察到某种关联性现象,人们便易误判其即为所探寻的因果性。

譬如在古代欧洲,不少人认为,体虱对人类身体是有益的,因为观察到生病者身上很少发现体虱,而健康者身上反而常见体虱,这种认知源于长期观察积累形成的经验。在欧洲中世纪,人们长期依据某个现象,形成了一种因果联系:身上有虱子的人,被认为身体强健,身上没有虱子的人,则被看作体弱多病。

那个时期,大家确实注意到,身上有没有虱子和身体状况之间有关联,不过,这是必然的因果联系吗?自从有了体温计,人们就明白了,这并非真正的原因结果:由于虱子对人的体温特别敏感,它只能在极小的温度范围内存活,而人一旦生病,经常会有发热的现象出现。人一旦体温升高,体表温度随之改变,寄生虫就难以承受这种热度,因而会离开。我们若仅注意到身体状况良好与否和寄生虫数量多少之间有联系,这其实只是表明两者存在关联,并非必然导致。类似的情形还有很多,比如每年冰淇淋销售量上升的同时,各地不幸溺水身亡的案例也在增多。那么这两件事是否意味着存在因果联系呢?根据一般认知,情况并非如此。究其原因,每当季节转暖,参与游泳活动的人会明显增多,由此导致意外落水事件的发生率也随之攀升。与此同时,气温的上升也会刺激人们对冰淇淋的需求,使其销量出现增长。

换言之,当某个变量发生轻微波动时,另一个变量也可能随之变动,二者或许存在关联性,然而这种关联性,并不代表两者形成了因果联系。

如何分辨因果联系呢,这要求我们格外谨慎,并且要巧妙地运用数据分析方法,归根结底还是要依据统计学原理。

此处,我们列举一个历史上的病症实例,即小儿麻痹症,亦称脊髓灰质炎。当前,小儿麻痹症的病例较为罕见,原因是现今存在相应的预防接种。在过往,脊髓灰质炎曾是一种令人极度恐慌的病症。

上世纪五十年代,美国某高校的科研机构,研发出一种针对该病症的免疫制剂,证实其在实验环境中可激发有效抗体反应,但研究人员不确定,该制剂在实际应用中的大规模测试,是否仍能保持同样功效,于是美国政府决定开展试验,具体时间约在1954年当时脊髓灰质炎多发生在儿童身上,因此实验对象选定为小学低年级学生。如何验证疫苗的实际效用呢?为使统计数据真实体现因果关系,当时设计了五种实验计划。

首个计划是,由于1953年之前未曾存在该疫苗,因此从1954年起,需为所有的一至三年级学生接种,随后对比1954年的发病率与1953年是否存在差异,以此验证效果,此法虽可行,却存缺陷,毕竟历年脊髓灰质炎的发病情况波动显著。例如1951年美国大约有三万脊髓灰质炎病例,1952年增至六万例,1953年或降至四万例以下。该病年度发病率起伏不定,倘若实验数据介于三万至四万例之间,便难以判定这是自然波动所致,抑或是疫苗产生了效果。

第二个方案建议以地域为标准执行。具体来说,在纽约片区,所有一至三年级的小学生们都完成疫苗接种,而在芝加哥片区则完全不予接种。接着要统计,纽约和芝加哥这两个片区的脊髓灰质炎患病状况。但这个方案最终被证明同样不可行。脊髓灰质炎属于传染性疾病,某个区域可能爆发,而邻近区域未必受影响,因此两地数据对比存在出入,这并非疫苗作用所致,缺乏对比价值。

后来便有人构思了第三种办法,由于那个时期接种这疫苗,没人能确定是否会产生不良后果,所以确实存在隐患。于是这个办法就建议,由接种孩子的家长们自主决定。部分家长决定让孩子接种,部分家长则不接种,这样同一批孩子就会形成不同的参照组。然而,这种方式也存在弊端。由于那个时期大家已经察觉到,患小儿麻痹症的人多数出身于富裕家庭。经济条件欠佳的家庭,生活环境较为恶劣,卫生状况也欠佳,家庭成员可能较早接触过脊髓灰质炎病毒,甚至可能在出生时就遭遇了这种病毒,然而新生儿具备来自母体的免疫保护,借助这种免疫力,婴儿在接触病毒后能够生成抗体,因此不会发病那个时期的数据状况已经显露了某种倾向。若采取自愿接种的方针,条件较好的家庭多数会让孩子接受接种,而经济条件欠佳的家庭则因财力所限,并且意识到自身群体感染风险相对较低,或许就不愿参与接种。这种现象给实验结果带来了干扰,难以分辨是疫苗效果显著还是经济因素导致了差异。

接下来是第四种计划,有个人建议,仅让二年级的儿童接受接种,而一、三年级的学生则不接种,然后对比接种与未接种学生之间的差异,观察他们的患病率是否存在不同,该计划是由当时的脊髓灰质炎防治机构提出的,但这个计划同样不可行,首先,它依然无法排除接种儿童家庭经济状况不同所导致的患病几率差异脊髓灰质炎属于传染性疾病,患者年龄对其传播存在关联性,一至三年级学生年龄分布不同开yunapp体育官网入口下载手机版,或造成各年级间患病风险出现区别。此方案还存在另一显著不足,即可能对医疗从业者产生认知偏差。依照此计划推进,医界心知肚明,一、三年级学子未曾接种,二学年的部分学生却已接种疫苗。那个时期脊髓灰质炎的确诊工作比较困难,倘若医生事先了解到了这套免疫接种计划,并且清楚这个疫苗在实验过程中效果显著,那么当遇到一年级学生,即便病症尚未明确,这位医生很可能会凭借“该学生未接种相关疫苗”以及“疫苗具备实际效用”这两点先入为主的判断,便直接判定其患有脊髓灰质炎。而且这种区别对待的方案,接种的学生本身心理也会受到影响的。

此前还存在一个第五种计划,该计划最终被实施并采用了调查结果的措施。这个计划具体内容是,在获得学生家长许可的情况下,仍然会告知家长:即便你们同意接种,提供给孩子们注射的,未必是疫苗,而是一种在外观上与疫苗完全相同的安慰剂,既无不良影响也无实际作用。这个安慰剂在外观上与疫苗毫无二致,导致医生和学生都无法分辨实际接种的是疫苗还是普通的安慰剂,唯有疫苗供应方清楚内情,因为他们给每种药品都分配了唯一标识,所以供应方能够明确区分出哪些是安慰剂,哪些是疫苗,借助这种方法,实验室得以采用随机原则进行疫苗接种,同时确保了无论家庭背景如何,接种过程都保持随机性。医生们同样不清楚,具体哪些儿童接种了疫苗,这样排除了年龄、经济状况等干扰因素,有利于明确脊髓灰质炎和疫苗之间确凿的联系。

1954年,该项研究涉及约74万名小学生,实验表明接种疫苗后,儿童感染小儿麻痹症的可能性为十万分之二十八,而未接种疫苗者,感染风险为十万分之七十七,前者显著低于后者,差距接近两倍。此后,通过持续的努力,脊髓灰质炎疫苗最终在美国获得批准。

很多学术成果和政策审核都要求进行因果探讨而非关联性研究。数理统计方法能协助我们确立必要的因果联系。真正的因果联系往往无法从简单的关联性中直接推导。存在许多科研课题,必须探明内在的因果机制。统计学为此类研究提供数据采集与处理框架,这正体现了统计方法的独到价值。

那个来源文件被隐藏了,它不显示在界面上,用户无法直接看到,需要特殊操作才能访问。

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。