2013年3月4日 星期一

社會科學的本質

「嚴以律己,寬以待人」,這是從小就常聽說的一句格言。最近我發現,它其實不只可以用在做人,也應該用在作社會科學研究上。如果我們都嚴格地對待自己的研究,寬鬆地評價別人的研究,心理學所產生的知識會因此而有很大的不同;甚至,我覺得,惟有以一種寬鬆的標準去評價心理學研究,我們才有機會生產出有效的知識。

「嚴以律己」的研究哲學,我相信沒有人會不同意。我們必須嚴謹地進行思考及研究設計,惟有如此才能看見真相。但是,為什麼我們卻必須「寬以待人」才能生產出有效的知識?

原因其實很直接,因為心理學是不完美的科學,其實用「不完美」來形容心理學實在是太客氣了,應該說心理學是非常粗糙的科學。從很多方面都可以看出「不精緻」是心理學的本質:在構念(constructs)上,心理學所使用的構念看似華麗但多半不清晰;讀papers時你常常會看到類似這樣的論述:「關於○○的定義,不同學者有不同的看法」,如果你發現有某個構念作了上百篇的研究,卻沒有一個統一的定義,甚至沒有人去定義它,也不會是太令人驚訝的事,更不用去談這些構念到底有沒有對應到真實(reality)了。而在測量上,心理學測量之粗糙一定會讓自然科學家感到驚訝,前一陣子我請助理去調查非常經典且常用的「社會期許量表」(social desirability scale),發現在許多研究中,它的信度都只有在.7左右,甚至更低。信度.7是什麼意思呢?想像我們有一個體重計,而人類的體重標準差為10kg,則信度.7的意思是說這個秤的誤差大約是±5.5公斤;也就是如果你是個65公斤的,則有可能你早上秤體重發現自己是60公斤,晚上秤時卻發現自己是70公斤(以上這有趣的類比方式,是成大鄭中平老師告訴我的)。

值得注意的是,上述的不完美並不是因為心理學家本身很爛所造成的(雖然心理學家的科學素養的確很差);這種不完美和心理學的本質有關,一方面心理學的研究對象「人」,本身具有複雜的思考意向(intention),這是多數自然科學研究對象所沒有的(石頭不會思考吧?),所以研究起來的難度差很多,就算愛因斯坦是心理學家,他大概也無能為力;再者則是倫理的考量,我們可以毫無顧忌地對待石頭,卻不能殘酷無情地對待「人」。如果我們能在小孩一出生就把他們放在各種不同環境去養大,我們一定會對教養方式如何影響人有很深入而確實的瞭解,但是我們不能這樣作;倫理的考量也使得心理學註定是不完美的科學。某種程度你可以說心理學家真的蠻了不起的,他們必須在非常多的限制下,想盡辦法探索知識、揭示真理。

此時,我們可以回到為什麼看待別人的研究時必須「寬以待人」了。如果心理學像上面所說的,在建構、測量上並不完美,在研究操作上有非常多限制。那麼它的研究過程和成果不完美是非常自然的事,真的,不完美應該是非常自然的事,反而研究的過程和結果很都完美才是一件怪事。如果心理學的建構、測量都是粗糙的,它所生產出來的知識也會是粗糙的,它所建構出來的理論也無法太精緻。在這種情況下,我們不能用嚴格的科學標準去評價它,反而必須用鬆散的標準去評估它。此時請讓我用一個有點怪,但還算貼切的例子來說明這件事,如果把西方人比喻為自然科學,東方人比喻為心理學。有人說西方女生的胸部都很大,因此每個女人胸部都應該至少是C罩杯,否則不算女人;於是有人拿這個標準來評價東方女生,只要罩杯小於C的就不是女人,那接下來會發生什麼事呢?很多東方女人為了證明自己是女人,只好去隆乳了。這就是目前心理學的現狀,因為我們一直用一種違反心理學本質的標準在評價我們的研究,於是很多學者為了符合這個標準和期待,只好去作出在心理學中不可能存在的研究;這也是為什麼我們的理論聽起來都很厲害、在期刊上看到的研究都很完美,但這些研究常常無法被複製,而理論則對解決現實問題沒什麼幫助的原因。

或許有人會說,就算如此,我們還是應該要努力要求每一個研究都嚴謹,作到最好啊。這我絕對贊成,研究者必須力求完美,這是我一開頭說的「嚴以律己」部份。但是即使如此,我們還是不能忘了,我們只能預期看到不完美的研究成果。事實上,就算測量的信度是學者們一般都會很開心的.9,在前面說的體重計例子中,它的誤差也高達約±3.2公斤,這還沒考慮所測量的構念是否描繪了真實,以及測量的效度問題等等。因此我們應該努力地使研究更嚴謹,這一點絕對無誤,但是就算如此,我們仍不能忘記心理學的本質,這個本質(研究對象的複雜度、測量誤差、倫理限制)必然會造成其研究成果不完美,這一點和心理學家努力與否無關;就像東方女性的身材有它先天的基因基礎,喝再多四物湯對豐胸的幫助也很有限。因此,不管我們的研究設計有多嚴謹,心理學的研究成果呈現出不完美是非常自然的事,這是它的本質,在對心理學的研究進行評估時,就不該忽略這個本質,否則會造成很大的災難其實這災難已經造成了,而我們正身處其中。

從學生時代開始,我們就被訓練成以非常嚴格的方式去批判課堂上讀的東西,照理說這種訓練非常合理,它讓心理學家的思考變得很敏銳;但久而久之我們產生了一種錯覺,誤以為心理學應該要和自然科學一樣精準,這種錯誤的信念,是造成心理學無法生產出有效知識的重要原因。當人們認為只要是女人胸部就要大時,為了證明自己是女人,大家只好都去隆乳;當我們愈是認為心理學應該要和自然科學一樣精準時,學者們只好努力「製造」出符合這種期待的研究成果。

其實我講的事情非常簡單,如果我問:「心理學和自然科學一樣精準嗎?」大家應該都會說不是,自然科學精準很多。接下來我再問:「那心理學的理論預測力,要強過自然科學嗎?」大家應該也都會說不是,自然科學理論的預測力要比心理學理論強多了。但是你去看看實際的研究成果,會發現完全不是這麼一回事;事實上,根據調查,心理學得到支持假設的研究結果的比率高達91.5%,勝過所有的自然科學學科(Fanelli, 2010,註1)。如果你能理解心理學的本質是不完美的、其理論是不精緻的、測量誤差是大的,那麼你就會發現心理學研究目前所生產出來的研究之精緻程度,非常違反這個學科的本質,它們可能是不真實的。一直以來,我們以一種近乎自然科學的荒謬標準在評價心理學研究,而更有趣的是,我們還真的生產出這樣完美的知識,翻開期刊,處處皆是像自然科學一樣精準的心理學論文。

這就是我為什麼一開始提到:惟有「寬以待人」心理學才有機會生產出有效知識的原因。「寬以待人」指的並不是一種隨便的態度,我們可以追求完美,也可以用完美的角度去看待所有研究,但那必須是「社會科學的完美」,而非「自然科學的完美」。什麼是「社會科學的完美」呢?舉例來說,如果一篇論文中有四個研究,其中兩個研究結果支持理論、兩個結果不支持理論,對心理學來說這已經是完美了。碰到這種並非100%的成功率時,很多心理學家會說:「這中間可能是有某個moderator要考慮….」,這說法聽起來很有道理,但其實並不正確,因為此時我們已經落入了把心理學當作自然科學的錯誤信念中了;事實上並不需要用moderator來解釋這種不一致,就前面提的那些心理學的不完美本質而言,研究結果無法100%支持假設是非常自然的事,可能是機率造成的,可能是誤差造成的等等;在這邊我忍不住想再說一遍:「就心理學的本質而言,研究結果無法100%支持假設是非常自然的事」,反而期望研究結果要100%支持假設才是奇怪的。如果我知道有哪個心理學理論其研究的成功率高達50%,對我來說那是一個非常厲害的理論,我很樂意為了它奉獻一生;如果你能理解我前面說的:心理學作為一門科學有其無法克服的本質限制,你就會知道在這些限制之下有50%的成功率是多麼不容易的事。然而,我們卻總是以「如果理論是對的,則每次研究結果都該支持理論」的方式在評價心理學研究,那就是一種把心理學當作自然科學的錯誤信念,是一種違反心理學本質的期望,也是目前多數心理學家的錯誤信念。這種信念促使學者們製造出不可能存在的研究成果,大大地阻礙了心理學的進展。

其實很諷剌的是,心理學家被訓練在研究上要嚴格的對待別人;卻常常以非常寬鬆的標準在規劃自己的研究。我們在課堂上灑問卷,一次施測上百人;或是為了克服共同方法變異問題(CMV),把問卷交給受試者帶回去作、委託別人代為施測;為了圖一時之便把好幾個研究的問卷放在一起施測,甚至為了保險而多測幾個變項;更別說,選擇性忽略不符預期的結果,只報告具有「市場價值」的正向結果,讓這種正向偏誤(false positive)的結果遍佈期刊。雖然我認為「嚴以律己、寬以待人」對心理學的進步很重要,但現狀卻是相反的;我們「寬以律己、嚴以待人」。

1Fanelli, D. (2010). “Positive” results increase down the hierarchy of the
sciences. PLoS ONE, 5(4), 1-9.