抑郁症健康,内容丰富有趣,生活中的好帮手!
抑郁症健康 > 总拿智商低为自己找借口?IQ测试其实是伪科学

总拿智商低为自己找借口?IQ测试其实是伪科学

时间:2022-10-21 15:39:43

相关推荐

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:智商测试的初衷在于希望通过不同能力的测试结果,计算出一个简单的分数来反应孩子的整体潜能。但在逐渐的衍生中,这项测试常常被作为测量智商高低的方法从而建造一个“坚不可摧”的鄙视链,但却没有多少人会真正关注怎么提高低分者的分数,这大大背离了其设计的初衷。科学研究也表明,这样的测试在数学意义上完全说不通。本文译自 中原标题为“IQ is largely a pseudoscientific swindle”的文章。本文作者 Nassim Nicholas Taleb为安皮里卡资本公司创始人,也是纽约大学库朗数学研究所的研究员,著有《黑天鹅》等。

IQ,即智商,是一种用来测量智力水平的指标。IQ 测试方法最早的雏形,是法国心理学家比奈所设计的比奈量表,其初衷是为了识别那些可能会遇到学习困难的孩子,主要通过否定而不是肯定的方式来筛选所谓“优秀”的人。为此,比奈量表汇集了一系列和日常生活相关的能力,并设计成试题,希望通过足够多的不同能力的测试结果,计算出一个简单的分数来反应孩子的整体潜能。

但在逐渐的衍生中,这项测试和比奈的初衷也渐渐偏离。现在的 IQ 测试常常被作为测量智商高低的方法,区分出天才、普通人,以及弱智低能者,而并没有多少人会真正关注怎么提高低分的人的分数,这主要是因为 20 世纪初 IQ 测试在美国的错误使用和传播。同时,它的功能也仅限于应试类的学习:谁擅长考试谁不擅长考试,谁是知识分子谁是文盲这种划分其实一目了然,也并没有什么意义,毕竟这种事靠普通的检验就能分辨出来,何必上升到“智商”。所以回归生活,智商测试很大程度上还是一副伪科学的面孔。

随着时间的推移,美国的心理学家进一步发展了比奈量表,并把它运用到大众智力测试当中。他们认为人的智力是先天的、遗传所得而不可逆的。通过 IQ 测试,心理学家试图把人的智力分为三六九等,并决定了人在社会中的地位。正是由于 IQ 测试的发展,美国的很多国家政策都受到了比较大的影响,它导致了 1924 年《美国移民法案》的出台,限制移民进入美国,另外,优生学在美国被推广并盛行开来,智商歧视也加剧了美国就业中的歧视现象。

尽管上个世纪中智商测试的滥用引发了种种不公平现象,但目前,某些所谓的心理学者们仍然向不明就里的学校、企业等机构推销着这一“心理学中最准确的量表”。如果我们考虑心理学家们在做研究时对数据倾向的刻意操控的话,这一解释的准确性恐怕还要再打折扣。

从某种程度来看,这可能是一项不太道德的测试,虽然测量本身并不会对人体的机能造成伤害,但凡是经过测试的人,终身仿佛都被装进了一个隐形的盒子里,这个盒子有意无意在暗示他们:“你的界限在哪里”、“努力没有用”....

从数学角度看,IQ 测试是不科学的

IQ 测试的科学性并不能通过数学方法的检验,因为这种测试在长尾分布下衡量相关性有严重缺陷,它没有正确处理维度关系,将本来由各种因素影响的复杂系统简单地看成一项测试分数。

同时,IQ 测试通常只能解释人群在某些任务表现中 2% 到 13% 的差异,然而仔细观察你会发现,这些任务往往本身就和IQ测试很相似,两项相同的测试拿出来互相佐证是不是有点矛盾了?

在数学方法看来,智力测试甚至不满足两项量表应该满足的最基本属性:单调性和传递性(单调性指的是,如果 B 在 IQ 测试上得分比 A 高,那么 B 的实际智力一定比 A 高;传递性指的是,如果 B 在 IQ测试上得分比 A 高,而 C 的得分又比 B 高,那么 C 的实际智力一定也比 A 高)。所以从这个角度看,一项在百分之八十到九十五的情况下都不准确的测试不应该被认为是“科学”的。

如果你不信的话在下面的证明中我们可以辩一辩。

Frey and Detterman,

上图在假设分布不为长尾的情况下说明了智力测试的第一个缺陷:相关性在分布不对称时没有意义。令 y 轴代表被试在某实际任务中的表现,我们在 x 轴上建立一个假想 IQ 测试的得分。当被试在这一实际任务上得分为负值时,假设 IQ 测试的得分和任务得分有 100% 的相关性;但当被试在这一实际任务上得分为正值(也就是较高)时,IQ 测试和任务得分间完全没有相关性。

然后通过逐渐对两者间的相关性加入均值为零的误差来模拟实际中的情况,于是可以看到在图上,任务取正值的部位出现了本不应存在的相关性。这一问题在智力因子作为主成分而分析得出结论时尤其严重。

我们可以看到 IQ 和 SAT (美国大学入学考试)分数的相关性就表现出了类似的形式。实际上大部分任务和 IQ 测试之间的“相关性”都和这一缺陷有关。

IQ 与 SAT 分数的相关性(Frey and Detterman, )

让我们看一下上图的计算结果:

问题:你在 10,000 个人中测量 IQ 测试和他们在某项任务上表现的相关性,在这 10,000 人中有 2,000 人是死人。死人在 IQ 测试上得分为 0,在任务表现上得分也为 0 。在其余活人中,IQ 测试和任务表现没有相关性。那么,IQ 和任务表现的伪相关会是多少?

答案:37.5%。

怎么解释这一结果呢?打个比方,如果一个人的脑子出了生理问题(如植物人大脑),那他显然在所有事情上的表现都会很差,任何可以用来识别能力低下人群的测试都可以测量出这一点。但没有什么对等的因素可以让一个人在所有事情上的表现都变得很好。假如某人有严重的心理能力障碍,那么显然他的 IQ 分数和表现会有 100% 的相关,但这一相关性在没有心理能力障碍的人群中不会出现。

然而心理学家们却忽略了这一非线性关系,错误地认为这一相关性存在(我们可以说,一个 IQ 只有 70 的人没法证明数学定理,这说明了 IQ 在识别能力障碍人群上是有意义的,但研究结果并没有说明 IQ 得分 150 的人更有可能从事脑力工作)。

因此,实际上所有的能力测试都会和 IQ 有一定的正相关,即使它们之间完全没有关系。实际上,如果某一能力测试和 IQ 之间的相关性很低的话,这说明两者间可能是负相关的。

IQ 测试到底在测量什么?

IQ 和现实生活中(如财富等)的一些指标没有任何统计上显著的相关性。研究人员宣称的一些和 IQ 相关的“成就”往往也只是一种循环论证,即拿成功论证智商高,又拿智商高论证成功。这些“成就”往往指的都是学业或世俗意义上的成功,而这仅仅是因为这两者本身的测量指标异常相似罢了。

在现实中,财富虽然不是成功的唯一代表,但它是唯一能被量化的现实生活中和成功较为有关的指标,毕竟真正有购买力的只有钱,名词、个人经历可换不来面包,所以这个单一指标严重限制了智商测试本身的科学性。

不过也有人认为 IQ 测量的是心理素质,例如“智慧”、“耐心”、“决策力”等特质。但实际上, IQ 测试的东西和心理能力并没有太大关系。

如果我们想测量一个人在某项任务上的表现怎么样,比如说他的网球打得多好、有多擅长线性代数,我们只需要让他打打网球、做做数学题目来看看就可以了。而并用不上什么理论上的测验来测量现实生活中的表现。

这其实就和金融交易里的理论和现实一样,交易员们都知道:“模拟”出来的交易策略在现实中往往不起作用。人们在面对一些古怪的图片测试题时的反应和他们在现实生活中的表现并没有什么关系。

所以对于其真正测量出来的东西可能还真不一定是智商本身。

IQ 测试和收入水平有关系吗?

从测量结果来看,除去分布极端值以后,IQ 和财富间的相关性为零,数据包含的几乎全是误差。

Zagorsky()研究

从上图可知,IQ 和 45,000 以上的收入之间没有相关性。即使是在有相关性的情形、低 IQ 或者低收入的人群中,误差也非常的大。这说明 IQ 可能只是为极端低收入者而设计的。

如果 IQ 是被刻意设计成正态分布(貌似确实如此),而现实生活中表现的分布实际上是长尾的话(情况属实),那么 IQ 和表现间的相关要么不存在,要么并不具有意义。

在样本中我们也许可以发现之间的相关性,但在统计学上,这一相关实际上并不存在。因此 IQ 测试对表现的预测力被高估了。

针对这个问题,北爱尔兰阿斯特大学心理学名誉教授理查德·林恩(Richard Lynn)和芬兰坦佩雷大学政治学名誉教授塔图·万哈宁(Tatu Vanhanen)于 2002 年出版了一本名为《智商和国民财富(IQ and the Wealth of Nations)》的书试图探究智商和国民收入的关系。在本书中两位心理学家提出了国民智商(IQ of Nations)的概念,然后认定它与国家民族的财运深切相关。他们认为聪明的民族就会富裕,而不那么聪明的民族就注定贫穷。这个结论在遭到近似于围剿的批评。

首先,这本书建立国民智商这个概念时使用的数据来源并没有经过精准测算。在被分析的 185 个国家中,只有 81 个有实地智商测试,然而这些测试还都是一些学者小规模进行的。更令人难以相信的是,其余的 104 个都是通过毗邻国家的数据估算出来的。

其次,有人质疑作者究竟有没有搞清种族和民族?如果智商像作者以为的那样,那么根据作者的调查结果,带有大量白人血统的拉美裔(Hispanic)为何离北美澳洲白人的距离如此之远?

原书作者调查得出的各族裔智商差异

最后,有质疑表示,即使族群之间存在平均智商的差异,也要经过漫长的途径才能变成财富的差异。民族的穷富更多地是由整体的社会和经济环境决定。在所处环境一定的情况下,谁的发展情况更好可并不好说。

英国门户网站 Vouchercloud 发布“国民智商排行榜”

理论与现实截然不同

当某人在现实生活中问你一个问题的时候,你肯定首先会想:“为什么他要问我这个?”这会让你把部分的注意力从问题分散到问题的语境上。哲学家们早就发现了这一点。例如说,有一个数列 {1,2,3,4,x} ,问 x 应该是什么?只有完全不懂归纳法的人会认为 5 是唯一的答案(哲学中的 Goodman 问题对此有讨论)。

我们也可以应用维特根斯坦的“遵循规则”问题。这一问题称,对于任一有限的数列,有无限个函数可以拟合这一数列。这些认为只能是 5 的人不仅是不懂归纳法,他们还得循规蹈矩到只会用一种方式思考。

然而现实生活中不存在有特定答案的问题(大部分的现实问题都没有答案),只有很少一部分人会把自己的脑子浪费在应试型问题上。相反,有些人会把自己的脑力专注于解决现实问题而不是教科书中的固定套路里。

由此看来,智力测试没办法测量出问题的凸性,没办法很好地判断哪些错误真正说明了一个人的真实水平,哪些错误只是随机的偏差。这一点和机器学习中的“偏差-方差权衡”(参数估计偏差小的预测模型方差较大;而偏差大的预测模型方差较小)类似——你需要犯很多无关紧要的小错误来避免有严重后果的大错误。

回归到现实中,心理及预期的偏差却是十分常见的,虽然这些偏差会导致我们犯一些小错误,但对我们来说却可能是有好处的。

IQ 测试的其他问题

被随机性误导:IQ 测试最大的缺点就是完全测量不出随机还是真正的正确答案,说实话,发现一些表面规律的能力并不是什么有用的东西。有些心理学家对我这个观点也表示了反驳,他说:IQ 测量的是识别规律的能力,这在现代社会中非常重要。但我恰恰不这么认为。我认为能够在规律明显的时候识别出规律,而在不明显时懂得忽略它们才是有用的能力。

从数据上来看,不考虑对数据的操纵以及相关性的缺陷,50% 的相关性意味着两者间的相关只比随机选择好了 13%。

工作能力与 IQ 的相关性(Intelligence: All That Matters by S. Ritchie)

注意噪音(干扰因素)的大小:得分最高的百分之二十五的门卫比得分最低的百分之二十五的大学教授得分还要高。即使我们考虑到 IQ 测试的循环逻辑:医生的 SAT 分数较高,而 SAT 的题目和智力测试又有重叠,然而医生群体的智力和门卫群体的智力测试得分仍有很大重合。

职业与 IQ 测试关系(Robert M. Hauser, )

额外方差:不像对财富和身高的测量,许多人做同一 IQ 测试多次可以得到非常不同的结果,最高可以到两个标准差,这甚至比人群中的抽样误差还高!而这一巨大的误差说明了作为一个个体,你本身测试的不确定性甚至可能超过了人群中确定的多样性!

研究偏差:心理学研究发现医生和学术工作者的 IQ 更高(虽然其中的噪音占比很大),但这仅仅说明为了成为医生和学术工作者,他们需要擅长和 IQ 测试类似的学校考试。这会使得我们观测到的这两个群体的 IQ 均值偏大,方差却偏小。

“员工”商:如果你把 IQ 命名为“员工商”,那么它测量的东西可能会更有价值一点。IQ 测量的不过是你有多擅长做一个只会执行简单任务的奴隶罢了。

科学研究中智商与行为表现的关系

综上,在这里引用一下《人类的误测》作者古尔德的观点:

智力的定义是指人们认识、理解客观事物,并运用知识、经验等解决问题的能力,包括记忆、观察、想象、思考、判断等多方面的能力的集合。因此它并不是多方面能力的叠加,而是在不同环境和情况下的有机结合。在现实生活中我们看到的人其实大部分智力相差无几,只不过擅长的组合方式不同。因此,智力虽然受到先天因素的影响,但后天因素对它的影响更大。而且,先天因素和后天因素是紧密结合的,并不能单纯剥离出所谓先天的智力,更不存在所谓智力的实体。用一些试题测量或者通过计算获得智商是极其不靠谱的。

IQ 测试还有意义吗?

通过前面一系列的论述你是不是也发现了智商测试的问题?整体来看,在现实生活中我们很难把IQ测试当成一种科学的测量方法,甚至说其是“伪科学”好像也并不为过。但它果真就是纯纯的江湖骗局吗,为什么还有这么多人对其笃信如一呢?

抛开数学意义,这恐怕要从它的社会意义上说起了:只要资源存在短缺,筛选机制就有存在的理由来实现社会资源相对公平的分配,如学历、绩效、证书等等。目前看来人类社会仍毫无疑问处在这样一种状态中。拿教育来举例,为何明明现代教育中很大一部分内容早就已经背离了“技能培训、全面发展”的初衷,很多考试题目看上去单纯就是为了“整人”,但学历却仍然是步入理想主义的第一门槛?其原因就在于这是一项相对公平的筛选机制,通过此来区分不同人的社会价值及能力从而实现有限社会资源(比如大学名校的录取名额)的相对合理的分配。

明白了上述道理之后,就不难理解为何一个世纪以来“智商测试”日益流行,并得到了社会的普遍认同。因为从某种程度上来讲,这又是一个带有同样原理的筛选机制,虽然它的合理性并不完全存在于现实社会中。

在此,想要提醒大家的是:智商测试这项活动未成年人可要慎用哦!

译者:小灼

如果觉得《总拿智商低为自己找借口?IQ测试其实是伪科学》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。