當前位置: 華文世界 > 科學

隨機對照試驗如何才能發揮更大作用?

2024-01-24科學

導讀

Foreword

嚴格的影響力評估對於指導社會影響力專案的方向和規模變得日益重要,隨機對照試驗(RCT)是其中的黃金標準。然而,隨機對照試驗可能缺乏對造成結果的原因的解釋和如何提高的可操作建議,因此對專案執行者的價值有限。本文作者認為,可以透過進行實證、理論和概念性工作,納入行為科學的思考路徑,並整合公開可獲取的定量數據資源和定性數據,在評估中提供有關決策和改進的資訊,最佳化專案影響力,從而更全面地發揮評估的潛力。

插圖:布萊恩·斯陶弗(Brian Stauffer)

嚴格的影響力評估對於指導社會影響力專案的方向和規模變得日益重要。國際影響力評估倡議(the International Initiative for Impact Evaluation, 3ie)的發展證據入門網站提供的數據表明, 2000年僅有39項針對中低收入國家的影響力評估被發表,而到了2020年,這一數碼增長至1526項。

隨機對照試驗(RCT)是此類評估的黃金標準。過去二十年裏,隨機對照試驗在發展研究中的套用顯著增加,尤其在2019年,埃斯特·杜弗洛(Esther Duflo)、阿比吉特·班納吉(Abhijit Banerjee)和邁克爾·克雷默(Michael Kremer)因其在減貧工作中使用實地試驗而獲得諾貝爾經濟學獎後,隨機對照試驗更受到了公眾的廣泛關註。將傳統實驗室隨機對照試驗的嚴謹方法套用於測試醫療保健、教育、農業等其他領域的幹預措施,有助於政策制定者和非營利組織了解在國際發展中哪些措施有效,哪些則不然。

幹預措施的實施者經常抱怨說,如果要吸取經驗教訓並提高影響力,就需要對專案監測和評估進行更多投資。嚴格的影響力評估本身成本高昂,尤其是大規模的隨機對照試驗。盡管存在諸多抱怨,但許多組織和資助者仍願意為此類費用提供可觀數額的資金。然而,即便投入大量資金、時間和專業知識,也往往無法產生專案實施者特別需要的東西——有價值且可操作的反饋。

盡管在發展領域使用隨機對照試驗獲得了諸多贊譽,但仍有許多人質疑隨機對照試驗是否適用於評估復雜的幹預措施。他們認為,在許多案例中,隨機化是不可行的,很難從隨機對照試驗的結果中歸納出一般性的結論。單純的隨機化並不意味著結果是無偏見的,而且隨機對照試驗的設計無法對造成結果的原因進行更多解釋。

撇開這些批評(雖然它們大多是合理的),我們認為可以透過一些方式使隨機對照試驗的結果對實施者更具可操作性。如經濟學家安格斯·迪頓(Angus Deaton)和哲學家南茜·卡特韋特(Nancy Cartwright)所言:「對於隨機對照試驗能夠提供幫助的許多問題,還需要進行大量的實證、理論和概念性工作,才能使隨機對照試驗結果具有實際套用價值。」

走在前沿的行為科學(behavioral science),為更好的測量、評估和適應力學習提供了有希望的創新途徑。作為非營利組織ideas42的行為設計師,我們每天都在利用行為科學來理解環境是如何影響解決全球範圍內復雜的社會問題的決策。我們在超過45個國家與合作夥伴設計幹預措施,並進行了許多嚴格的評估,以加強這些幹預措施的效果。

我們還進行外部專案的評估,為決策和改進提供資訊,並協助合作夥伴以更具可操作性的方式,套用從第三方評估中所獲得的結果。根據我們的經驗,我們提出兩種方法,以幫助專案設計者和資助者最大限度地利用他們在隨機對照試驗上的投資,從而得到改善專案和最佳化影響力之所需。

重新思考變革理論

首先,我們建議重新思考變革理論,以便輔助評估設計和決策。通常來說,變革理論對專案活動如何產生預期影響,提供一套完整敘事,為評估提供框架。制定變革理論是一項有益的實踐,它有助於使各利益相關方保持一致,並協助他們對專案預期實作的結果及其實作方式形成共識。然而,變革理論往往包括了專案計劃方法和所需投入的細節,卻未能明確闡述這些投入如何導致預期的結果。

幸運的是,行為科學的洞見可以豐富變革理論,並闡明專案產生成果的原因和方式。例如,采用一項服務、產品或流程最終取決於人類行為。行為科學的證據可以幫助辨識實作成果何時需要轉變觀念、信念或規範,以及提出的專案計劃能否合理地促進這些轉變。此外,變革理論中所述的許多成果(如營養改善、教育水平提升或更好的生育結果)都源於利益相關者的多種積極行為。以行為科學為指導的變革理論,可以精確定位可能對實作這些成果至關重要的人,如一線服務提供者、政策制定者、服務物件、管理者等人的相關行為,並確保這些行為被測量。並且,行為科學有助於實施者更細致地了解專案如何產生影響力,還可以突出在投入多年時間收集評估數據前,加強專案設計的方法。

變革理論還可以透過納入外部機制和基於證據的方法而受益,這些機制和方法可能是相關的,但專案設計者有可能並沒有將其視為在專案範圍內的東西。如果我們只關註一套狹隘的指標,而這套指標又是基於我們對如何產生變革的既有觀念, 那麽我們如何才能發現尚未挖掘的機會,從而產生更大的影響力呢? 當然,我們並不是說數據收集工作應該膨脹到能夠捕捉每個可能的變革途徑。相反,我們設想利用有針對性的、假設驅動的和定性的形成性研究,或已有的基於證據的行為模型,來突出那些可能未被認識到但可能對推動變革有重要影響的因素。以行為為依據的評估可能會揭示出,該專案在意想不到的途徑上產生了一定影響,或者該專案沒有達到預期影響力,是因為非目標途徑對結果更為重要。上述這兩種情況都能為專案決策提供有價值的啟示。

例如,我們最近評估了一項旨在預防加納少女吸煙的社會倡導專案。初步研究表明,女孩們所處的社會環境,特別是在學校或工作場所以外的社會關系和環境中,她們更有可能被邀請吸煙,這是她們是否吸煙的關鍵決定性因素。專案設計者沒有將社會環境作為重點關註的變量,也沒有在其最初的變革理論中包含這方面的因素。當我們在基於行為的變革理論中納入社會環境指標時,我們能夠驗證這些指標與少女吸煙的相關性;並且能夠展示先前專案可能已經對相關路徑產生影響,如少女對友誼的看法;並同時為專案實施者辨識出有希望透過納入對社會環境的考慮來加強其影響力的機會。

重新審視假設

我們的第二項建議是,透過更有效地整合可公開獲取的定量數據資源和定性數據,重新審視對於細致嚴謹的評估而言,哪些數據是有用的假設。

實踐者正確地強調了使用定量和定性資料來源來監測專案的實施,以之作為對更嚴格的影響力評估的補充。然而,他們通常過於局限地關註過程本身,即幹預的組成部份是如何被提供或接受的,卻忽略了深入探討專案及其更廣泛的背景是如何影響結果的。實踐者和研究者常強調定性方法在這些評估及更廣泛的行為研究中的重要性,但評估人員往往只是為了給定量措施提供資訊或為定量結果增添細節而采用定性方法和數據,而不是將定性方法作為獨立的證據來源。

我們意識到,定性研究對於為變革理論提供資訊和圍繞機制提出假設,以便用定量方法進行檢驗至關重要。但在定量方法可能不太可靠的情況下,定性方法也可以用於支持此類檢驗。例如,在辨識和探究可能影響專案效果的環境細節時,采用定性方法可能是必要的。 我們必須摒棄這種偏見,即僅將量化數據作為評估中唯一可靠的事實基礎,轉而傾向於采用能夠回答我們研究問題的各類方法,無論是定性的、定量的,還是二者兼有。 采用這樣的方式,我們能夠得出更加豐富且可操作的結果和發現。

此外,評估人員往往只專註於在隨機對照試驗嚴格受控條件下所收集的數據。然而,有時數據中會出現意想不到的趨勢,僅憑評估所收集的數據無法理解。盡管評估之外的資料來源不能用來確立因果關系,但它們可以幫助我們提供假設,解釋為何會觀察到某些特定趨勢,特別是在研究的宏觀背景中發生的變化。

例如,在我們對加納的吸煙評估中,當觀察到吸煙率上升時,我們假設這可能是由於季節性社交活動的增加。然後,我們利用科技公司在新冠肺炎疫情期間公開的手機流動性匯總數據,確認了那段時間人員流動的增加。在同一評估的另一個案例中,我們觀察到,隨著時間的推移,認為大多數同伴都嘗試過吸煙的青少年比例有所下降。我們假設,研究期間的高通脹可能影響了這一看法,對零花錢的削減可能較為明顯地改變了青少年的社交活動和消費行為,進而降低了吸煙的可見度。

可以肯定的是,隨機對照試驗提供了一種有力的方法來厘清假設,並確保資源投入到最有效的專案和政策中。在隨機對照試驗是回答研究問題的正確方法的案例中,我們仍然可以做更多的工作來利用其優勢,透過行為科學和更多數據資源設計的隨機對照試驗來產生更多可操作的研究結果。透過將行為科學更有效地融入到制定更具體的變革理論和衡量廣泛的循證機制中,我們甚至將能夠回答之前未曾意識到的問題。提升定性數據的重要性,利用公開可用的數據,可以使這些答案更加豐富,幫助我們更全面地發揮評估的潛力,從而促進未來專案和政策的影響力。

賈娜·史密斯是非營利組織 ideas42 全球健康部門的管理總監,該非營利組織利用對人類行為的洞察,即人們為何會做他們所做的事來幫助改善生活、構建更佳的系統,並推動社會正向變化。她目前還是世界衛生組織行為洞察與健康科學促進健康技術咨詢小組的成員。

莎拉·弗拉納根是 ideas42 的首席行為設計師。

來源:【史丹佛社會創新評論】英文網站2023年12月20日

原標題:Rethinking RCTs