怀疑不是科学是科学的证明？

点击联系发帖人 时间：2019-10-15 05:07

怀疑不是科学

【博科园-科学科普】如果本文能為你带来你未曾了解知道信息或知识故“博科园”觉得还是有用的。那么在评论区留个言点个赞并关注一下吧 (*°°)=3

（本图片信息见下媔图注）

（图注）这幅图像显示了引力透镜效应，因为空间被质量扭曲了这是爱因斯坦相对论给出正确答案的预测。但即便如此也不鈳能证明爱因斯坦是对的。图片版权：NASAESA和Johan Richard（美国加州理工学院）; 致谢：Davide de Martin＆James Long（欧空局/哈勃）

你听说过人类最伟大的科学理论：进化论，大爆炸理论引力理论。你也听说过证明的概念并且声称某些证据证明了这些理论的有效性。化石、遗传和DNA证明了进化理论哈勃膨胀的宇宙，恒星星系，重元素的演变以及宇宙微波背景的存在证明了大爆炸理论。下落的物体GPS时钟，行星运动以及星光的偏转，证明叻引力理论

除了这是一个完全的谎言，虽然它们为这些理论提供了强有力的证明但它们并不是证据。事实上在科学方面证明什么都昰不可能的。

（本图片信息见下面图注）

（图注）从理论上讲木星的大红斑与大气其余部分不同的特性可能与来自下方的热差异有关。即使有证据支持这个观点也不会构成科学证据。图片版权：Art by Karen Teramura, UH IfA with James O’Donoghue and Luke Moore

现实是一个复杂世界从经验主义的观点来看，我们所要做的就是衡量和觀察的数量即使是这样，这些量也仅仅是用来进行观测和测量的工具设备距离和大小只和能接触到的测量尺一样；亮度测量仅仅和计算及量化光子的能力一样；即使是时间本身，也只有必须测量它的通过时间无论我们的测量和观察结果如何，它们的有效程度都是有限嘚

（本图片信息见下面图注）

（图注）一个由两个镜子之间的光子反射形成的光钟将为观察者定义时间。即使狭义相对论理论和所有的實验证据都不能被证明图片版权：John

所以有时候不要试图证明一些事情，试着说服自己成为最严厉的评论家和最大的怀疑不是科学论者烸一个科学理论或许总有一天会失效，如果这样做的话这将预示着一个科学探索和发现的新时代。

在所有人类史上所提出的科学理论中最好的理论成功的时间最长，范围最广影响力最深…。在某种意义上这比证明更好：这是对人类有史以来想象物质世界最正确的描述！

知识：科学无国界博科园-科学科普

}

今天的科学面临着似乎与公众无關的危机、问题和问题数据和复制的完整性;关于使用统计数据和p值的问题;过度竞争融资的后果;将STEM教育作为职业道路的过度推销;传统职业階梯上的科学职位稀缺;监管研究紧张;以及其他怀疑不是科学的理由，都使当前的科学领域生机勃勃但是，我们和公众倾向于从过去的科學及其伟大成就的角度来看待科学而科学的研究、评价和问责的方式不再符合它的历史形象。

旧的图像关注于发现把科学家看作或多戓少自主的探究者。我们可以称之为自由科学理论两位物理化学家——曼彻斯特大学的迈克尔?波兰尼(Michael Polanyi)和哈佛大学的詹姆斯?布莱恩特?科南特(James Bryant Conant)——阐述了这一观点。曼哈顿计划改变了一切规模变大——大的科学和大的预算到来了。随着团队科学的出现和大规模技术的應用人们的职业生涯也发生了改变。大的科学意味着大的钱大的钱意味着需要证明支出的合理性。这与旧的科学形象是一致的即即使是悬而未决的“纯”科学也可能产生应用，然后产生可用的技术

作为自由主义科学理论的核心，科学是由遵循自己最佳直觉的自主个體所产生的自发秩序这种观点在实践中变得不那么重要了。大学找到了建立资助的方法——进入科学家的奖励结构优点被重新定义为包括企业家精神。但是随着20世纪70年代资金相对于寻求资助的科学家的供应出现紧缩，学术科学领域的就业市场也出现了紧缩

发现伦理提供了一种简单的方式来与公众建立联系:发现者将发现与文化英雄联系起来，并将其人性化并将他们的名字与他们的发现联系起来，使怹们永远出名科学悄无声息地发展出了一种新的伦理，或者说是一种源于强调科学中较小部分的伦理一种生产力伦理。生产力伦理需偠一种不同的关系这种关系是由科学的实践价值观念逐渐形成的。

但现在在探索的道德规范下，生产意味着不同于生产力的东西它意味着产生结果，实际上是有“影响力”的结果专利和引用一起被统计，授权数量也被统计上世纪90年代末，一个新的科学资助案例获嘚了发展势头其首字母缩写STEM(科学、技术、工程和数学)于2001年出现。STEM教育将带来高薪(高科技)工作的承诺开始推动国家教育政策

科学是被视為技术未来的核心，因此也是研究投资的更大目标但随着投资而来的是问责制。指标评价大学的使用,和指标筛选的方式个人科学家,积极約束的选择研究,不仅如此:决定如何研究限制通过他人的期望,并通过制度审查委员会、资助者和期刊在私营部门的大学之外，很大一部分科学受到投资、融资和监管接受的现实的限制

从资助者的角度来看，这些新的责任形式是一件好事:它们给科学家的关系带来了纪律并將科学工作推向实际结果。

有了它关于科学的自主性和与科学的社会契约的陈词滥调就变得过时和不相关了。我们现在签订的“契约”鈈是抽象的它们是与利益相关者和资助者之间的书面契约，这些人有科学家可以和他们交流、也应该和他们交流的切实需求大资金意菋着更大的组织和更多的集体决策。

看似时尚主导的科学其实是快速变化的环境和快速变化的需求主导的科学。旧的职业模式失去了相關性旧的研究模式也将如此。“再写一篇论文”将不再足够因为我们不再关心基本的发现。改进和扩展我们的模型来处理实际问题将哽加重要

科学发展的方式回答了一个一直困扰着“纯科学”追求的问题:什么证明使用稀缺资源可以造福他人是合理的?今天的科学可以回答这个问题。答案是影响力

科学似乎已经形成了它目前的体制结构，从而形成了现在的科学的结构和内容这是不可避免和必要的变化嘚结果。但是我们仍然可以问我们所描述的结果有多少不是科学必然成熟的产物，而是选择的产物我们还可以问，这些选择是否是对夨败的接受——接受科学主要关注“影响”在它的愿景中受到可用的资助机制的限制，与昂贵的技术和昂贵的产出相结合通过同行审查和激烈的资金竞争使其墨守成规。

旧体制在科学的效用和通过规范进行纯调查的目标之间进行调解科学家所坚持的准则使他们值得信賴和值得信赖。科学家监管新的定量问责制度会导致欺骗、跟风、从众和屈从于赞助商，而这些赞助商的资金使其有可能参与竞争竞爭是公认的，但它变成了对资金和可衡量的“结果”的竞争“当对科学的需求转变为对科学的需求时，需要付出的代价是自主

我们可鉯说，不再需要自主性或者科学家已经拥有了科学所需的所有自主性和所有外部强加的问责规则。但这种立场的代价更大随着内部控淛变得不那么明显，人们对科学的信任也在下降问责制，特别是以可量化和可操作的标准的形式出现的问责制并不是对这种变化所产苼的问题的答案:问责制是外部控制代替内部控制。过去的内部控制并没有回答科学家们现在应该面对的问题尤其是科学可以合法提供的東西和科学需要的东西之间的关系。

我们需要问问自己我们是否已经失去了一些宝贵的东西:有新想法的年轻科学家冒着风险、追寻推动發现的直觉的可能性，而不仅仅是事业下一个变化是:科学家本身需要成为这一主题的新思想来源:科学的分支需求。

}

著名“心灵鸡汤理论”被证明不鈳重复：面带微笑不见得让你更开心

心理学界公认二十多年的正统理论被最近的重复实验推翻了

1988年，德国维尔茨堡社会心理学家 Fritz Strack 做过一個经典实验：面部动作可以改变心理状态面带微笑会让人快乐，苦着脸会让人情绪不佳——情绪不仅可以内而外也可能由外而内，由洎身的动作引发二十多年来，作为社会心理学的经典研究之一、“社会启动”（social priming）理论的典型代表这一直是心理学公认的正统理论。

嘫而2013年春天63岁的 Strack 在一系列私人邮件提出了一个大胆的建议：如果怀疑不是科学者想要检验什么东西，就应该让他们去检验在科学领域，“论述的质量及其实证检验才是科学著述的根本”

在 Strack 提议之时，社会心理学领域正处于困境著名的社会心理学家 Diederik Stapel 深陷造假丑闻，而“社会启动”的诸多研究也在仔细的审查中暴露出问题，许多人希望对社会启动领域的论文进行大规模验证

所谓“启动”，是指人不會意识到一个在短时间内（比如3毫秒）呈现的信息但是大脑接收到信息，对其进行了处理“社会启动” 这个概念本身就很微妙。心理學实验依靠精心设计的实验条件来反映人行为的细微变化实验设置的轻微改动，或是实验室新手犯下的小错误都有可能扭曲数据。假設有一个或者几个实验室无法复制前人的研究那能说明什么问题呢？这会改变人们对于科学的看法吗

诺贝尔奖获得者、心理学家 Daniel Kahneman 对《洎然》（Nature）转述了他对“启动”研究的看法：他希望鼓励该领域专家进行复制研究，但是他们却不肯；这就“诱使人产生这样的联想启動效应的信奉者害怕看到复制研究的结果”。

于是 Strack 说让他们去检验他的那项教科书式的研究结论吧。

那么Strack 的理论具体是什么？

在不久湔的里约奥运会上摄像机拍到运动员菲尔普斯皱着眉头的样子。菲尔普斯是不是在进行什么神秘的准备活动呢

一个神经科学家解释道，他可能是在用“面部反馈”（facial feedback）理论的方法通过扭曲面部肌肉来激活杏仁体，为比赛做准备多年来这一直是自我调节的标准方法。想要感受什么情绪就先做出那个表情，接着那种情绪就会自然而然地产生

这个理论可以追溯到达尔文时期。达尔文在1872年提出情绪表露出来的动作和表情可以进一步强化这种情绪。那些在生气的时候动武的人会更加生气达尔文把这个理论归功于法国脑解剖学家 Louis Pierre Gratiolet。此人後来进一步提出动作和表情不仅仅可由情绪触发，甚至可以反过来触发情绪

这个关于身心一致性的理论在经过美国心理学之父，心理學家 William James 以及之后的心理学家的一步步扩充和演绎之后内涵变得更为丰富。上世纪60年代有心理学家提出，其机理在于从现象中寻找原因：囚们感觉到出汗会观察环境是否太热了，同理人感觉到笑的动作也会推想自己是不是很高兴。

后来研究者实验验证发现面部反馈似乎真能改变人的情绪。但是没人清楚面部反馈过程究竟是如何发生的

80年代，Strack 在伊利诺伊大学做博后期间注意到这个问题他发现，此前所有的面部反馈研究都有一个共同的缺陷：参与者很容易猜到实验目的如果实验人员让你笑，你多少能了解他期待你感受的情绪这样┅来实验数据就受到了污染，因为催生实验结果的原因可能并不是面部反馈本身而是参与者对实验目的暗示的顺从。Strack 和同事 Leonard Martin 知道自己嘚实验必须要更加高明。

他们想到可以让参与者用牙齿咬着一支笔，或是一支温度计用牙齿咬着笔的人，嘴巴必须张大看起来就像茬假笑！但如果让他们用嘴唇吸着笔，他们的眉头就会不自觉地皱起来看上去很不高兴。这样一来参与者根本想不到实验目的是什么。

他们告诉参与的92位本科生这是一个关于“精神运动协调”，以及有身体残疾的人是如何写字和使用电话的实验接着学生们用牙齿咬著，或是用嘴唇吸着笔做了一些无关的任务比如用铅笔把点连起来，或是把一段文字中的元音都标出来；最后他们评价了一个卡通的搞笑程度

他们的结果发现，那些用嘴唇吸着笔从而被迫做出皱眉表情的人给卡通片的平均分是4.3；而那些用牙齿咬着笔从而被迫做出微笑表情的人，给卡通片的评分却是5.1最重要的是，实验中没有任何学生觉察到自己的面部表情被操纵了他们根本不知道研究的目的是证明表情对卡通评价的影响。

这个聪明的小伎俩看起来一劳永逸地解决了面部反馈的研究难题很快有记者来追问他，是否能用这个方法治疗抑郁症不过 Strack 说，要让一个人快乐有的是更好更强力的方法。

在接下来的20年里有许多其他实验室运用了这个方法并进行了改良。有人紦一对高尔夫球钉（放高尔夫球的支架）分别粘到参与者的眉毛上然后让他们把两个球钉靠在一起，使得参与者被迫做出皱眉的样子姒乎这个动作能够让参与者感到悲伤。在另一个实验中研究人员让参与者用5种方法衔着笔，以使后者做出5种不同的笑容比如礼貌的笑、假笑、更自然的挤眼笑等等。这个研究称更真实的笑容让人感到更快乐

的方法后来得到了各种稀奇古怪的应用，甚至进入了实践操作領域有人猜测，如果面部表情能够影响一个人的心理状态那么微笑是不是能够治好社会痼疾呢？有一项研究给出了肯定的回答2006年，芝加哥大学的研究人员发现如果你让人们微笑（让他们两排牙齿间夹一支笔）的话，他们看到黑人照片时的种族主义倾向会减弱2013年，覀班牙的一个研究团队发现牙齿咬着笔的“笑容”能够让人在画画任务中变得更加有创造力。Strack 自己甚至在一个实验中证明如果让学生皺起眉毛来的话，他们就会觉得明星也并不是那么有名甚至 Strack 本人曾一笑置之的抑郁症治疗问题，也颇有建树——最近一些随机临床试验發现注射肉毒杆菌毒素消除皱纹，可使病人从抑郁中恢复

回顾这些年的各式研究，Strack本人对该理论深信不疑这就是为什么三年前他主動请缨的原因。“他们想要复制些研究所以我建议他们重复我的面部反馈实验，”他说“我有自信肯定能得到积极的结果，所以我并鈈觉得这事儿会变得多么有趣好啊，他们想做那就做吧我没有问题。”

负责这项面部反馈复制计划的是荷兰阿姆斯特丹大学的 E. J. Wagenmakers 他对凊绪以及情绪的表达没什么兴趣。“我的兴趣主要在方法上面”，科学是人做的“是人就有可能会有各种偏见。我想从整体上讲有理甴持怀疑不是科学态度”

复制出研究的机会有多大呢？

“我估计有30%吧！”

从某种意义上讲Wagenmakers 的估计算是乐观的。因为过去的许多复制计劃都变成了灾难现场比如，2008年研究者曾试图复制100项心理学实验但是其中只有39%的实验能被复制。心理学领域的知名期刊《心理科学观点》（Perspectives on Psychological Science ）曾经发表了“注册复制计划”（Registered Replication ReportsRRR），号召全世界的实验室复制几项实验然后把数据整合分析。结果4项实验中已经完成的3项均告失败。

2015年4月复制实验正式启动。

Wagenmakers 的团队招募了来自8个国家、17个实验室的科学家每个实验室都复制了 Strack 的原始程序，实验参与总人数达箌2000人研究方法也有一些更新：参与者通过观看预录制的视频获得实验指导语，而且实验全程都会被拍摄记录下来看看他们到底有没有鼡正确的面部表情衔笔。

实验数据采集数据分析，报告撰写和编辑又花了16个月的时间结果终于在今年8月18日出炉了。

在一半的参与实验室中（17个中的9个）摆出微笑表情的参与者对卡通搞笑程度的平均评分略高，比摆出皱眉表情的高0.1到0.2分（总分10分）左右但是在 Strack 的原始实驗中，微笑者和皱眉者的分数差异达0.82分在其他实验室的数据中，微笑的效应看起来是相反的：微笑的参与者比皱眉者的评分低0.1到0.2分当 Wagenmakers 紦所有数据综合起来以后，微笑的效应消失了微笑者和皱眉者的平均评分的差异是0.03分，这可能是噪音或随机性导致的

“我真希望这项研究能被复制出来，” Wagenmakers 表示“不幸的是，结果并非如此”

Strack 并不后悔让RRR 来重复自己的研究，但也没有把复制研究的结果太当一回事“峩看不出我们从这个研究中能得到什么有用的信息。”

一类的项目实际上反映的是一种“认识论误区”因为完美地复制一项古老的研究昰不可能的，人会变时间会变，文化也会变任何社会心理学家不会两次踏进同一条河流。他们说即使再做一次同样的实验，消极的結果也没什么意义因为它并不能解释为什么复制研究没有成功。

所以当 Strack 重新审视这项复制研究的结果时，他并不认为自己的实验失败叻而是觉得另有隐情。毕竟有9个实验室的数据是在正确的方向上。而其他8个实验室得到了相反方向的数据他认为，为什么非要把所囿数据平均从而算出效应为零呢为什么就不能弄明白，两批数据之间的本质差异是什么或许一半的实验室无法得到微笑效应是有原因嘚。

Strack 对复制项目的评论和复制研究报告一同发表出来Strack 的评论中挑出了一些复制研究的问题。比如研究排除了600名参与者的数据，这差不哆是总参与者人数的四分之一根据 RRR 的说法，这些人被排除的原因是因为他们衔笔的姿势不正确或打分太飘。Strack 认为另有原因很多受试鍺是心理学的学生，或者已经猜测到实验目的毕竟，这个实验在该领域太有名了

另外他还指出，80年代的卡通片素材未必能“在当代本科生中引发相似的心理效应”他在复制项目初期就和 Wagenmakers 提到过这个问题，但是对方没有理睬不过，RRR 团队在实验开始前曾经让另外120名阿姆斯特丹大学的学生评价过该卡通片的搞笑程度发现评分与过去基本相同。

Strack 接着提出了摄像头的问题因为它们会让参与者开始关注自身嘚行为，并压抑自己的情绪最后，他还对复制研究者的偏见存在疑问似乎他们是有意让结果对其不利，因为样本最大的那个实验得到嘚结果是积极的

没有调查就没有发言权，让我们回溯到1988年看看 Strack 最初的论文。该论文包含两次研究第一次研究得出0.82的差距之后，两人甚至不敢告诉当时的老板之后他们又优化细节，进行了第二次实验换句话说，这个实验 Strack 自己是重复过的

在 Strack 的第二版实验中，他希望紦参与者的客观评价和主观情绪感受分离开来参与者要回答两个问题：第一，这个卡通的搞笑程度如何；第二他们感到多有趣？第一個问题中皱眉者对卡通的评分反而比另一组高出0.17分但是第二个问题的结果似乎复制出了此前的研究结果。微笑者感受到的有趣程度的分數比皱眉者高出整整1分

那么， Strack 本人对此怎么看呢以论文中的叙述看来，他认为重复是成功的他说，他预测第二个问题－“这个卡通讓你感到多有趣”会不同于参与者对第一个问题的回答，而且事实的确不出他们所料

但是事后看来，这个后见之明——问题问法的改變本身就是一个值得警惕的现象心理学的基础证据至少是有一些裂缝的。这个实验的存在本身就证明最初的结论并不稳定为什么其他囚没有注意到呢？

这项复制研究的失败有多糟糕呢这也许取决于你看这个新闻时的表情了。如果你心情不错——因为你嘴里衔着一支笔嘴巴咧到耳朵边上，那么你可能并不会觉得这是个大问题说不定你会同意 Strack 的观点，认为卡通片摄像头或是样本本身有问题。但不论洳何有一个事实无法否认：衔笔实验的结论是无效的。

或许你的看法更加悲观或许 Strack 的原始论文有问题，或许衔笔这个方法本身就存在偅大缺陷甚至每个用这个方法的实验都有问题。现在你的额头开始皱起来了：如果问题发生在更深的层次怎么办？如果名气如此响亮影响力如此巨大的衔笔研究都无法复制，那么其他不出名的研究会怎样或许表情对情绪有直接作用的观点本身就是错误的？或许达尔攵从一开始就错了！

如果面部反馈领域也受到“文件夹效应”的影响那怎么办那些研究结果和 Strack 一致的可以被发表，而不一致的研究就只能被束之高阁了如果情况真的如此，那么 Strack 引用的后续研究都将是虚假的

实际上，衔笔复制实验的失败并不令人吃惊因为几乎每个大型心理学复制计划都以失败告终。关于具身认知（embodied cognition）的其他重磅理论比如权利姿势（指双手叉腰会让人感到更有自信），还有麦克白夫囚效应（指感到愧疚时对“清洁”相关的概念会更加敏感）的复制研究都没有得到支持性的结果

心理学是不是岌岌可危了？那么认知神經科学呢其他科学领域呢？

这就是可复制性危机的核心

问题在于，做一个批判主义的心理学家没什么好处如果你想要让自己的研究絀名，获得媒体和同行的瞩目你就得搞个大新闻，弄出一点戏剧性的令人意想不到的数据出来。

Wagenmakers 认为问题应部分归咎于科学期刊编辑他们对证据坚实且渐进的科学研究并不那么热衷。他认为媒体也难辞其咎媒体喜欢宣传不那么靠谱，但却吸引眼球的研究我们自己呢？同样容易受到荒谬的研究结果的吸引（比如有一个研究称因飓风丧生的受害者多带有女性的名字）这些因素给研究者带来了错误的動机，让研究者以为证据最弱的研究反而最重要。

Wagenmakers 说要向前看。期刊正在改变政策透明度正在增加，科研经费资助机构也开始资助複制研究心理学家们意识到了自身的问题（p值操纵，发表偏倚）这是件好事。不管怎么说不破不立，不塞不流不止不行。

}

杰西卡魔网络