2017年4月21日 星期五

這球場上有球嗎?

有甲乙兩位同學,他們的學科能力是完全相同的,考完學測後,甲得了59級分,乙卻只得了41級分。明明兩人實力完全相同啊,為什麼學測成績差這麼多?乙打了電話去問試務委員,這是怎麼回事?試務委員的回答是:「喔,學測結果本來就有誤差呀,你的能力和甲相同,卻和他差了18級分,這是非常合理的喔,它在可容忍的誤差範圍內啊。」
台大研究團隊作假的新聞吵了有一陣子了。心理學界這幾年也不斷地有類似事情上演;事實上,我們已經麻痺了。從最初發現有人造假震撼學界,到現在誰誰誰的理論被發現可能作假,已經不再令人驚訝,只是成為大家覺得「哦,又一件啊」的八卦話題。很多人開始發明偵測作假的方法,或是提出避免學術造假的解決方案。一開始我也對這議題感到興趣,但是後來我慢慢地覺得不太對勁,有一種奇怪的違和感。那種感覺好像是,本來球場上裁判的工作,是要去判斷這球是safeout?是界內或界外?得分算不算數?如今裁判們三不五時聚在一起討論的是:這個球場上真的有球嗎?「這球場上有球嗎?」這是個什麼樣的問題?「這篇研究有造假嗎?」這算是什麼科學問題?我不是為了瞭解「這球場上有球嗎?」才站上球場的;也不是為了想方設法去偵測作假而走上科學之路的。但,這並不是最糟的,這背後有更糟的問題。
很多學者致力於避免造假,是因為他們相信:「只要心理學家不造假,就能產生有效的知識。」這個假設是合理的嗎?我發現不是;即使心理學家不造假,也無法產生有效的知識。
有非常多理由讓我認為「即使心理學家不造假,也無法產生有效的知識」,在此我只講其中一個顯而易見的理由--我們的測量非常糟。很多心理學家認為測量的信度(誤差指標)0.7就可以接受,0.9就很好之類的。就以心理學家普遍滿意的信度0.9來說;信度0.9是什麼意思?就是本文一開始舉的例子:兩個學科能力相同的人,可能一個人考完後是59級分,另一個人卻只得了41級分;這是我用103年大學學測成績算出來的。當學測的信度是0.9,也就是同一個人測出來的結果可能是41分,也可能是59分時,我們敢把學測用在大學推甄嗎?如果像學科能力這麼具體的東西,0.9都這麼慘烈了,心理學中那些虛無縹渺的抽象建構:人格、信念、自尊、價值、動機等等,0.9的信度到底在測什麼?建立在這種測量上的科學又是什麼樣的科學? 測量,只是我認為現有心理學無法建立有效知識的眾多原因之一。

問題已經不在於心理學家是否作假了,而在於:「即使心理學家不造假,也無法產生有效的知識。」

沒有留言:

張貼留言