雖然我們每天都在說「因果關係」,但甚麼才是真正的因果關係?以下整理了幾個數據分析與因果推論中最核心的基礎概念!
[反事實 (counterfactual)]:這是一個「假設性」的概念。假設某個病人,若其接受治療會發生什麼事?若沒接受治療又會發生什麼事?這兩種潛在結果 (potential outcome或counterfactual outcome),現實中只會發生其中一個,這就是「反事實」。
[一致性 (consistency)]:當個體實際接受了某種處置時,其觀察到的實際結果,就等同於該處置下的潛在結果(反事實結果),這在統計上被稱為「一致性」。一致性假設允許我們把現實數據(實際治療組的結果)直接拿來當作反事實結果(若全體治療會怎樣的其中一塊拼圖),是我們能用現實數據計算因果效應的根本基礎。
>> 要使一致性成立,處置或介入措施必須夠明確、沒有歧義,不可有「同一種處置,卻有多種不同版本」之情況。
🔹 個體 vs. 群體因果效應
- 個體因果效應 (individual causal effect): 比較「同一個人」在接受與未接受處置下的潛在結果差異。但現實中無法同時觀測,只能觀察到其中一種conterfactual effect,另一個potential outcome則為missing data,因此無法直接計算"個體"因果效應。
- 群體因果效應 (population causal effect): 山不轉路轉!我們改看「群體平均」。也就是比較整個群體「全數接受處置」與「全數不接受處置」時的平均結果差異。
需注意的是,沒有Average causal effect,不代表也無individula effect。個體間的effect可能被正負抵銷,導致整體平均為零,但該治療對個體或許是有實質影響的。而有別於一般只看「群體平均」的因果虛無假設(Average Causal Null Hypothesis),Sharp Causal Null Hypothesis探討的是「個體層級」,若母體中「所有」個體的因果效應皆為0,亦即對每位個體而言,接受治療與否的結果都完全相同。但現實世界中要假設藥物對「全世界所有人」都完全沒作用,是非常嚴苛且極度不切實際的。
🔹 效應估計指標 (estimate types) 當因果效應存在時,我們可以透過不同尺度來衡量:
- 絕對指標 (additive scale): 因果風險差 (risk difference),衡量發生率的絕對增減數字。可直接反映處置帶來的「絕對改變量」,通常公衛領域更偏好使用此指標,輔助決策判斷。在統計運算中,具有完美的可壓縮性 (Collapsibility),即在沒有干擾因素 (confounding) 的情況下,整體的邊際效應 (Marginal effect) 會等於各個次群體分層效應 (Conditional effect) 的加權平均值。整體母體的邊際風險差,必定等於各分層風險差的加權平均,整體數值定會介於分層數值間。。
- 相對指標 (multiplicative scale): 因果風險比 (RR) 與因果勝算比 (OR),衡量風險變化的相對倍數。跨群體穩定性較高且直觀易懂,通常流病領域更常使用此指標,但易掩蓋絕對嚴重性。需特別注意的是,OR不具有可壓縮性,未調整的 OR (整體) 通常會比調整後的 OR (分層) 更趨近於無效應 (OR=1),此現象又稱為「衰減效應」,因此不同OR間不可直接進行互比!
- NNT/ NNH (number needed to treat/ harm) :是指平均需要治療多少人,才能成功避免一次不良結果的發生(等於因果風險差絕對值的倒數),公衛領域常用。
至於要選用以上哪一種效應估計指標,取決於研究目的。
🔹在因果推論中,隨機變異 (Random variability) 會產生隨機誤差 (random error),主要分成以下兩個來源:
- 抽樣變異 (Sampling variability):現實研究中,通常只能取得母體的一小部分「樣本」進行觀察。利用樣本數據來推估真實母體的狀況時,會因為抽樣本身的隨機性而產生誤差。雖然根據大數法則 (law of large numbers)可知樣本數越大,抽樣變異會互相抵消,使估計值越接近真實母體數值,達到一致估計量 (consistent estimator),但我們仍須仰賴統計方法來評估因果關係的假設。
- 非決定性反事實 (Nondeterministic counterfactuals):個體在某種處置下的潛在結果,可能並非「非黑即白」的絕對狀態(如:一定會發生或一定不發生),而是帶有機率性質的(如:接受治療後有 90% 的機率死亡、10% 的機率存活)。這種源自事物本質上的隨機不確定性,是無法單靠收集更多資料來消除的。
🔹 因果 vs. 相關 (causation vs. association) 這是最關鍵的觀念!
👉 因果性 是比較「同一個完整母體」在兩種不同平行時空下的風險(全體皆接受處置 vs. 全體皆未接受處置)。
- 因關注的是反事實結果在整個母體中的發生率,屬於邊際機率 (marginal probability)或無條件機率 (unconditional probability)。
👉 相關性 是比較「現實中剛好接受不同處置的兩群人」的風險。
- 因關注的是在「已知實際處置狀態」的條件下,結果發生的機率,屬於條件機率 (Conditional Probability)。
- 但這兩群人的健康基礎可能根本不同,因此可能造成干擾 (confounding)。 若直接把相關當因果,未考慮群體間的隱藏差異,可能會得出嚴重偏誤的結論 (biased)!
- Independence (獨立性): 當處置 A 與結果Y間「沒相關性 (no association)」時,在統計上稱兩者為獨立,也就是個體實際接受哪一種處置,完全無法用來預測其結果 。
- 觀察性研究觀察到沒有相關性,並不保證「沒有因果效應」,需在排除所有干擾因子,且滿足一致性 (Consistency) 等條件時,我們才能將觀察到的獨立性或相關性,等同於因果性。