最近有學者發現:某些研究軟體可能存在bug,而由於這些軟體長期被用在研究上,於是這bug可能導致近十五年來的許多大腦相關研究是無效的(註1)。就一門科學來說,我們的知識可能是錯誤的,這很可怕,但是更可怕的是,我們竟然需要十五年的時間去發現它!每年可能有數不清的學者、數十億甚至更多經費投入相關研究,而我們竟然需要十五年去發現這件事。
科學有很多「自我保護」機制;例如,重覆驗證、否證論的邏輯等等。這就像發射飛彈一樣,要真的射出飛彈之前會有很多保護機制,要經過重重關卡、不斷確認,誤射不會輕易發生。於是,當一枚飛彈被莫明奇妙射出去,打中的不是敵人而是漁船時,我們可以認為這是偶發事件;然而,如果這種事常發生,一直不斷有飛彈被誤射,一天到底打中漁船,你會覺得射飛彈的人一定瘋了,再不然就是他們是刻意地、有目的性地在誤射飛彈。我們一直射飛彈、然後花了十五年才明白,這十五年來被擊沈的都是漁船。這門學科失去了「自我保護」的能力,它無法有效偵測並汰除那些錯誤的知識。
這件事發生不久,就有人跳出來大聲疾呼:「沒那麼嚴重!」並且提供了一些統計推論來支持他們的論點。這讓我想起前2015年Science刊登一篇研究,內容是有超過一半甚或2/3的心理學研究無法被重覆驗證,當時也是沒多久就有人跳出來說:「沒那麼嚴重!」。我覺得這真的很不可思議,就像八國聯軍已經打到城門口了,朝中還有很多大臣,通常是那些嚐盡既得利益的重臣,在嚷嚷著:「不用擔心,我們的城牆很堅固!」
我們的知識可能是錯誤的,這很可怕;而我們花了十五年的時間才發現它,更可怕;然而,當發現這些事情後,我們還在宣稱「沒那麼嚴重」時,對科學來說,這不叫作可怕,這是恐怖。
我一直不明白,當有人宣稱:「沒那麼嚴重」時,為什麼總是需要藉由統計的推導來說明?(註2)就實徵科學來說,要知道哪一方是正確的,其實很簡單。例如,你認為「十五年來的許多研究是無效的」太過危言聳聽,就隨機挑一些研究重作一次,看結果是否相同就可以知道答案了;你覺得「超過一半甚或2/3的心理學研究無法被重製」言過其實,就隨機挑一些研究作看看,看結果能否重製就可以知道答案了。為什麼需要用統計推導的間接方式來爭辯這個問題?
或許有些人認為,重作別人的研究太麻煩。沒關係,我提供一個比統計更強力而且非常簡單的方式;那些宣稱「沒那麼嚴重」的學者們不必費心寫那麼長的論文、玩那麼多的統計,他們只要寫以下簡單幾句話就可以說服我:「我歡迎任何人重作我的任何一個實徵研究,而且有信心一定會得到相同的結果。我樂於藉由我自己的研究去證明現有心理學研究並沒有出什麼大問題。」如果那些講得口沬橫飛、義正言辭地捍衛現有知識的學者們,有人敢公開寫下我上面說的這些話,我不只會相信「沒那麼嚴重」,而且還會把他當作神一樣崇拜。
註1:Eklund, A., Nichols, T. E., & Knutsson, H. (2016).
Cluster failure: why fMRI inferences for spatial extent have inflated
false-positive rates. Proceedings of the National Academy of Sciences, 113(28),
7900–7905.
註1:用統計來爭辯這些問題是沒有意義的。以本文所說的研究為例,學者們發現軟體錯誤可能讓我們的研究結論犯錯機率高達70%。然而即使單一研究犯錯機高達70%其實也不嚴重,因為如果有兩個獨立的研究得到同樣結果,則犯錯機率會降到0.7*0.7=49%,以此類推,當有愈多研究得到同樣的正向結果時,結論出錯的機率會一直往下掉;如果有100個研究都支持某個理論,則犯錯機率會是0.7的100次方,犯錯機率幾乎是零。因此就算軟體錯誤造成某個研究犯錯機率為70%也沒有想像中嚴重,因為在心理學文獻中,你很輕易地就可以找到一堆一面倒支持理論的研究。這種機率運算是完全正確的,唯一的問題是:你手上的資料必須正確,所有的研究都是誠實無欺的。統計、數學很可靠,但它們的前題是所有的研究都沒有作任何手腳。如果你用來分析的資料,在刊登前就已經被調整和潤飾過了,那麼以這些資料為基礎的所有數學和機率分析都是沒有意義的。數學管得了真理,管不了人們對名利的渴望。