一半以上實驗結果無法重複，學術界正在遭遇一場危機嗎？

防走失，電梯直達

來源：知識分子

作者：詹羊

科學的大廈建立在大量可重複的研究結果之上，然而，近年來，種種跡象表示，在生物醫學領域，大量的研究結果似乎不可重複。比如，Plos Biology最近發表的一篇對近2000名生物醫學研究人員的調研報告中[1]，在最終收回的問卷中，72%的參與調研的活躍一線科研人員認同生物醫學領域存在可重複性危機，其中27%的參與者甚至認為這場危機非常嚴重。

但這也許不能算新聞。2021年，eLife上就發表了一篇針對生物學的可重複性研究的總結[2]。結果發現，學術界至少一半以上的癌症生物學實驗很有可能是不能重複的。而工業界似乎也沒有好到哪裡去---早在2011年，（Bayer）公司的一項內部調查顯示[3]，其對67個潛在的新藥靶點進行重複實驗時，僅有不到四分之一的結果得以重複。

由此可見，可重複性的問題在生物醫學領域可謂曠日持久。解決這一問題，絕不會是朝夕之功。這方面，也許一個稍微沒有那麼熱門的領域---心理學的故事，可以給我們帶來一些啟示。

扎堆的“p值曲線”

與不到一半的可重複率

心理學的可重複性故事，得從2011年講起。

在這一年，現西班牙艾賽德商學院的尤里·西蒙松（Uri Simonsohn）、加州大學伯克利分校的萊夫·尼爾森（Leif Nelson）和賓夕法尼亞大學約瑟夫·西蒙斯（Joseph Simmons）發表了一篇具有里程碑意義的論文[4]。在這個文章中，三人直言不諱地道出了心理學領域心照不宣的事實：心理學研究者在實驗設計和分析過程中擁有極大自由度，研究者往往可以透過不斷的嘗試，“證明”任何假說在統計上顯著，可謂是“有志者，事竟成”。

作為一個例證，他們演示瞭如何透過選擇樣本量，選擇控制不同的變數，以及選擇不同的實驗組、對照組等一系列騷操作，最終成功“證明”了“聽披頭士的歌使人年輕”的荒謬結論。假如這樣的行為大量存在，那麼大量已發表的心理學研究成果，可能都是不可重複的假陽性。

他們開出的藥方是：研究者在開始實驗之前就公開所有的實驗選擇，並嚴格按照公開的方案執行實驗。這個藥方，就是後來廣為人知的“預註冊”（pre-registration）。

同樣在2011年，布萊恩·諾塞克經過多年努力，終於籌到了推動心理學領域大規模可重複性專案所需的第一桶金[5]。他說服了全球270多名研究者一起合作，計劃對100-200項高影響力的心理學實驗進行重複試驗。這項雄心勃勃的計劃，日後給心理學領域帶來翻天覆地的變化。

西蒙松等人2011年的文章，只是在理論上指出了心理學可重複性危機的可能性，但在實證上，並沒有強有力的證據表明問題已經嚴重成了一場“危機”。但到了2014年，情況變得更為清晰了。因為這三位研究者又發表了一篇有趣的論文[6]，為實證檢驗心理學的可重複性危機提供了有力的工具，這就是著名的“p值曲線”。

p值是統計學中用於衡量結果顯著性的重要指標，通常認為p值小於0.05就算顯著。p值曲線依賴於一個簡單直白的直覺：如果研究者在統計顯著性上“鑽空子”，一旦p值跌破那個神奇的0.05，他們就會興高采烈地收工回家。如果這種情況普遍存在，那麼我們應該會在已發表的論文中看到p值在0.05附近扎堆。果不其然，後續的研究利用p值曲線驗證了這一點[7]。

而在2015年，諾塞克的大規模可重複性研究也開花結果，發表在Science上[8]。在完成的100項心理學重複實驗中，只有不到一半（36%-47%）的研究結果被成功複製，約80%的重複實驗中，檢測到的效應強度比原先的實驗要小。這一結果，徹底做實了心理學領域的可重複性危機。

想提高領域的可重複性，

應更鼓勵不顯著結果的發表。

現代發展經濟學有“創造性破壞”（creative destruction）之說，指出創新往往首先帶來舊的經濟體系的崩解，然後建立更高效的新經濟體系，最終推動經濟發展。心理學的發展也是如此。西蒙松和諾賽克等人的工作，激起了心理學領域盛況空前的真理大討論。自那以後，學界對可重複性根源和應對方案的理解有了長足的進展。

一方面，學科本身有其特異性[9]。在有些領域，理論和實驗技術都已發展到了很高的水平（比如高能物理），其實驗設計和分析的正規化已經高度統一，沒有太多任由實驗人員自行裁量的空間，結果可重複性自然就高。然而像心理學這樣的學科，目前的技術水平還無法做到這種程度的一致性，需要假以時日等待技術的自然進步，在此之前，要對可重複的實驗比例有個理性的預期。

另一方面，科學家也是人，人類多樣的行為也會影響科研產出的可靠性。這裡面，最突出的當然是嚴重的學術不端，比如赤裸裸的造假。但是最廣泛的，也是最難以杜絕的還是是西蒙松等人在2011年文章中指出的，透過反覆嘗試不同的實驗設計和分析流程，直到獲得顯著的結果。這樣的微小的“作弊”，幾乎無法被確鑿地證明。除此之外，即使研究者主觀上沒有“作弊”的動機，實驗過程中也極有可能下意識地調整實驗條件，直到預期結果出現---畢竟很多新的科學發現，需要的就是反常規的實驗設計和分析流程，無法預先框定，嘗試不可避免。

現行的發表制度，則進一步鼓勵了這種微小“作弊”行為的泛濫，而“不發表，就出局”的簡單粗暴的科研管理體制也為這種現狀添了一把火。在前述PLOS Biology研究中，受訪的研究者們紛紛表示發表不可重複性結果的主要原因是“發表壓力”。

對此，現加州大學默賽德分校的保羅·司馬爾蒂諾 (Paul Smaldino）和現馬普所演化人類學所長理查德·麥克埃爾裡思（Richard McElreath）就在2016年一篇極具影響力的論文中指出[10]，只要現行的學術激勵只傾向於發表新穎而顯著的結果，這一現象就很難被遏止。華盛頓大學的卡爾·伯格斯特羅姆（Carl T. Bergstrom)也在2016年一篇文章中指出[11]，想要提高領域的可重複性，現行的發表體制應該更加鼓勵不顯著結果的發表。

除了理論方面的探究，可重複性的實證研究也大有進步。這裡面不乏極具趣味性的研究，在這裡僅舉一例，來自2015年發表在PNAS的一篇文章[12]。在這篇文章裡面，作者展示瞭如何使用“預測市場”（prediction market）來預估實驗的可重複性。預測市場透過價格機制將參與者的不同資訊、觀點和判斷匯聚在一起。每個交易者根據自己的知識或預期買入或賣出合約，價格最終反映了集體智慧。在諾賽克的市場中，科學家和公眾可以對某項研究是否可重複進行匿名的“投注”。結果發現，市場最終的價格，相比於採訪領域內的專家們的意見，更能夠準確預測實驗的可重複性。

而可喜的是，這些探究並不僅僅停留在學術討論上。很多的應對方案，開始慢慢變成了心理學研究的新正規化。比如當年西蒙松等人提出的預註冊實驗方式，已經被越來越多的學者所踐行，而領域內的頂級期刊，比如Nature Human Behavior，也在鼓勵這類文章的投稿，並且宣告無論結果符不符合預期，只要按照預註冊的標準嚴格執行，都予以接受。

從心理學的經驗看來，可重複性危機不僅僅是“危機”，更是“置信度的革命”（credibility revolution）。這讓我們有理由對生物醫學領域可重複性的未來保持樂觀。

參考文獻：（上下滑動可瀏覽）

[1] Cobey, K. D. et al. Biomedical researchers’ perspectives on the reproducibility of research. PLoS Biol. 22, e3002870 (2024).

[2] Errington, T. M. et al. Investigating the replicability of preclinical cancer biology. Elife 10, (2021).

[3] Prinz, F., Schlange, T. & Asadullah, K. Believe it or not: how much can we rely on published data on potential drug targets? Nat. Rev. Drug Discov. 10, 712 (2011).

[4] Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol. Sci. 22, 1359–1366 (2011).

[5] Wikipedia contributors. Reproducibility Project. Wikipedia, The Free Encyclopedia https://en.wikipedia.org/wiki/Reproducibility_Project (2024).

[6] Simonsohn, U., Nelson, L. D. & Simmons, J. P. P-curve: a key to the file-drawer. J. Exp. Psychol. Gen. 143, 534–547 (2014).

[7] Head, M. L., Holman, L., Lanfear, R., Kahn, A. T. & Jennions, M. D. The extent and consequences of p-hacking in science. PLoS Biol. 13, e1002106 (2015).

[8] Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science 349, aac4716 (2015).

[9] National Academies of Sciences, Engineering, and Medicine et al. Reproducibility and Replicability in Science. (National Academies Press, Washington, D.C., DC, 2019).

[10] Smaldino, P. E. & McElreath, R. The natural selection of bad science. R. Soc. Open Sci. 3, 160384 (2016).

[11] Nissen, S. B., Magidson, T., Gross, K. & Bergstrom, C. T. Publication bias and the canonization of false facts. Elife 5, (2016).

[12] Dreber, A. et al. Using prediction markets to estimate the reproducibility of scientific research. Proc. Natl. Acad. Sci. U. S. A. 112, 15343–15347 (2015).