原创分享:为什么有人说大部分发表的科学研究都是错的?
“p<0.05”、“同行评审”、“影响因子”被不少科学家成为科研界的三大牛皮癣,大家对他们怨声载道。不过和另外两个不同,p<0.005可是自1925年诞生之日起就饱受诟病,从2010年开始不停又科学家开始对这个统计学中重要指标发起攻击。2015年时心理学杂志basid applied social psychology(basp)就直接宣布我们再也不发表带p值的文章啦!然后basp的编辑在接受自然采访时表示:如果假设检验从所有科研出版物上消失那我会很高兴,但是我们还不知道可以用什么来取代它......
那么这个让人又爱又恨的p值(p value)到底是个什么东西呢?
p值的计算可以向上追溯到18世纪,当时人们在统计出生时的男女比例,p值被用于计算男女出生概率相等零假设的统计学显著性。首先将p<0.005进行推广的人是罗纳德·费雪( sir ronald aylmer fisher ,1890-1962),现代统计学与现代演化论的奠基者之一。(就是这位大哥证明了孟德尔的遗传定律和达尔文的理论并非互相矛盾而是相辅相成。)他在1925年所著的《研究工作者的统计方法(statistics methods for research workers )》对后世影响力巨大。正是在这部著作中他提出将p=0.05作为统计显著性的极限,并将其应用于正态分布(作为量为检验),从而得出两个具有统计显著性的标准差的规则。
话说这大哥真的是一拍脑门就想出来的0.05啊,0.05纯粹就是个人为设置的值。只不过后来成为了大家都公认了这个定值。
加下来我们看一下统计学中的检验假设。(以下来自百度百科)
假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式。
1、提出检验假设又称无效假设,符号是h0;备择假设的符号是h1 。
h0:样本与总体或样本与样本间的差异是由抽样误差引起的;
h1:样本与总体或样本与样本间存在本质差异;
预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01 。
2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如x2值、t值等。根据资料的类型和特点,可分别选用z检验,t检验,秩和检验和卡方检验等。
3、根据统计量的大小及其分布确定检验假设成立的可能性p的大小并判断结果。若p>α,结论为按α所取水准不显著,不拒绝h0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果p≤α,结论为按所取α水准显著,拒绝h0,接受h1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。p值的大小一般可通过查阅相应的界值表得到。
p-value就是用来判断h0假设是否成立的依据。因为期望值是基于h0假设得出的,如果观测值与期望值越一致,则说明检验现象与零假设越接近,则越没有理由拒绝零假设。如果观测值与期望值越偏离,说明零假设越站不住脚,则越有理由拒绝零假设,从而推出对立假设的成立。
说了这么一大堆那么大家可以简单理解成什么呢?就是如果你的心理学(神经医学、医学等等)实验得到了p<0.05的检验结果那么大概率你就可以水.....啊不是写出一篇论文啦!(虽然远没有这么简单......不同学科要求不同,但一般大家默认是0.05和0.01)
那么为什么会说p值被很多人厌恶呢?
相信曾经有不少人在ted上看过哈佛大学社会心理学家amy cuddy的演讲,演讲的内容是关于“身体语言对于心态的影响”。
其中的内容主要来自于她在2010年发表的关于“调整身体姿态会显著提升自信”的研究。论文中提出非语言表达(膨胀、开放、占位姿态)可以影响人们的心情,行为以及激素水平。文章中还提到了在短短两分钟内采取支配性和力量相关的身体姿势可以增加**激素,减少皮质醇,增加对风险的掌控并在工作面试中表现更好。
她因为这篇研究以及后续的媒体报道而名声大噪,不但被纽约时报等大媒体关注采访她写的书也成功登上畅销榜。一举成为炙手可热、名利双收的美国明星社会心理学家。
然而~在2014年,来自瑞典哥德堡大学的 eva ranehill。
她和其合作者在2015年发表了一篇名为“assessiness :on hormones and risk toleran a large sample of men and women ”看看这论文名字起得:评估力量姿态的鲁棒性:在大量男性和女性样本中激素和风险耐受性没有影响。这pia pia地打amy小姐姐的脸啊。
eva ranehill在其实验中,在采取了更大样本的情况下,无法重现出cuddy的结果。这篇论文引起的风波直接导致了对于amy cuddy的广泛批评,后来她在2017年春季离开了哈佛商学院的终身职位。(cuddy后来又在2018年3月重新发表了一篇相关论文来证明自己)
我们再来看看另一个有趣的例子。2015年在西方媒体中,一份论文引发了一阵热潮。
天啦撸~每天吃一块巧克力可以减肥啦!!!!!
在这个研究中心,男女年龄在19到67岁之间的参与者被随机分配到三个治疗组之一:第一组进行低碳水化合物饮食,第二组进行相同的低碳水化合物饮食加每天42克巧克力(1.5盎司),第三组则是对照组,要求他们保持日常饮食结构。
实验在三周之后结束,对照组的体重不增不减,第一组和第二组的参与者一样平均减掉了2.3kg的体重,但是加餐了巧克力组的减肥速度比不吃巧克力的组快10%。这个实验结果在统计学上是显著的,因为p值小于0.05。
你可以想象这个结果有怎样的爆炸性,新闻媒体立刻跟进,吃巧克力能减肥的消息迅速传播开来。结果呢?
五月的时候,这位大哥跳了出来,注意一下他和论文中第一作者的名字差别。这篇论文从头到尾都是一个玩笑。这位bohannon是何许人也,他是美国著名的科学记者和生物学家。这篇论文就来自于他故意设计的恶意研究,他想要通过这个时间来观察媒体如何捕获和吸收“无意义”的研究结果。
他用这篇论文向二十家期刊投稿,并最终被国际医学档案馆(iional aredie)发行。他使用了一个假名字并虚构了一个假的研究机构,但是这篇充满恶趣味的论文却登上了大量的世界性媒体。
接下来,我们来看看他是如何操纵实验结果的。
首先,实验样本十分小,只有15个人被分到了三组,这意味着每组只有5个人。每个人被测量追踪了18个不同的身体指标,包括体重、胆固醇、钠含量、血蛋白水平、睡眠质量、幸福度等等。他们通过如此设计大大增加了实验指标中出现假阳性的可能性,如果体重没有显著差异,还有很多其他因素可能有。
此处体现p值操纵(p-hag,或者data dredging, data fishing, data snooping, data butchery 谁知道为啥有这么多名字)p值的一个重要特点是它只对单一指标有效,一旦在实验中比较了一大堆变量,那么变量中出现假阳性的概率就被大大提高了。研究人员可以在实验分析中采取很多手段来主动降低p值。
举个例子,我想要实验豆类对于人心情的影响,那么我可以使用一大堆变量。首先是人,抑郁程度、睡眠时间、自我评价等等,然后是豆类,黑豆、红豆、黄豆、青豆等等。如果足够幸运的话,我也许就能够从中找到一组假阳性的数据并发表论文。标题呢?吃红豆有助于改善抑郁症状,哇啦,又是一篇微博朋友圈的话题来源~
那么p值操纵现象在科学界到底有多普遍呢?人们一般会使用p值分布(p-curve)来判断是否有认为对p值进行了操纵。有研究表明,在大多数学科的公开论文中,p值更多的落在了0.05和0.01附近的区间。
在实验研究中研究人员在收集和分析数据的过程中需要作出很多决定:是否应该收集更多数据?是否应排除某些观察结果?应结合哪些条件,并比较哪些条件?应该考虑哪些控制变量?是否应结合或改变具体措施或同时采取这两种措施?这些实验过程中的操纵,或有意或无意的将实验结果推向了更具有统计学意义的结果。
2015年,社会心理学家,弗吉尼亚州夏洛茨维尔市开放科学中心负责人brian nosek和269位合著者重复了三份心理学期刊发表的98篇原创论文中的报道。他们一共复制了100项已有的心理学研究,发现只有39个研究能得到之前宣称的“显著”结果。在其它学科的类似复制研究中,经济学的通过率是60%,生物医药可能更低。
从这一年开始,科学界开始加大声量呼吁采取一个更加严格的p值来规范学术行为。2015年发表在《科学》上的研究显示使用更小p值(p<0.01)的研究复制成功几率较高。虽然这并不能从根本上解决p值操纵的问题,不过这毕竟是朝着更严谨的方向前进了一步。从p值这个小角度我们也可以看到科学界中某些问题,比如在学术压力下更倾向于发表有数据可以做出显著性的研究,而不是真正思考有价值的课题。
最可怕的是想一想人们在科学这个最寻求严谨使用着完善数学工具的领域,经过成熟实验标准化、复杂数学统计、严格同行审议之后依旧会有如此多的不正确信息被正规的科学期刊出版~那么当人类在非理性的状态时又会有多频繁地自欺欺人呢?
写这篇文章的原因在于我发现我们经常可以在互联网上看到如下的句式:某国科学家研究表明......某大学实验团队研究表明......某某研究报告证实......后面紧跟着的就是一个十分打破常识的内容。吃巧克力减肥......吃黄油减肥......吃高热量食物减肥......等等都为微博等平台提供了不小的流量。通过这篇文章,我想让大家了解一下这背后的原理。媒体总是喜欢选择这些引人注意、吸人眼球的内容,作为一名普通人我们一定要对这些看似科学的内容保持冷静。