What if 讀後統整

What if 讀後統整_Chapter 1

#study_design

Evelyn Shiu

Population health data center, NCKU , Taiwan

2026/05/07

　　雖然我們每天都在說「因果關係」，但甚麼才是真正的因果關係？以下整理了幾個數據分析與因果推論中最核心的基礎概念！

［反事實 (counterfactual)］：這是一個「假設性」的概念。假設某個病人，若其接受治療會發生什麼事？若沒接受治療又會發生什麼事？這兩種潛在結果 (potential outcome或counterfactual outcome)，現實中只會發生其中一個，這就是「反事實」。

［一致性 (consistency)］：當個體實際接受了某種處置時，其觀察到的實際結果，就等同於該處置下的潛在結果（反事實結果），這在統計上被稱為「一致性」。一致性假設允許我們把現實數據（實際治療組的結果）直接拿來當作反事實結果（若全體治療會怎樣的其中一塊拼圖），是我們能用現實數據計算因果效應的根本基礎。

>> 要使一致性成立，處置或介入措施必須夠明確、沒有歧義，不可有「同一種處置，卻有多種不同版本」之情況。

🔹 個體 vs. 群體因果效應

個體因果效應 (individual causal effect)： 比較「同一個人」在接受與未接受處置下的潛在結果差異。但現實中無法同時觀測，只能觀察到其中一種conterfactual effect，另一個potential outcome則為missing data，因此無法直接計算"個體"因果效應。
群體因果效應 (population causal effect)： 山不轉路轉！我們改看「群體平均」。也就是比較整個群體「全數接受處置」與「全數不接受處置」時的平均結果差異。

需注意的是，沒有Average causal effect，不代表也無individula effect。個體間的effect可能被正負抵銷，導致整體平均為零，但該治療對個體或許是有實質影響的。而有別於一般只看「群體平均」的因果虛無假設（Average Causal Null Hypothesis），Sharp Causal Null Hypothesis探討的是「個體層級」，若母體中「所有」個體的因果效應皆為0，亦即對每位個體而言，接受治療與否的結果都完全相同。但現實世界中要假設藥物對「全世界所有人」都完全沒作用，是非常嚴苛且極度不切實際的。

🔹 效應估計指標 (estimate types) 當因果效應存在時，我們可以透過不同尺度來衡量：

絕對指標 (additive scale)： 因果風險差 (risk difference)，衡量發生率的絕對增減數字。可直接反映處置帶來的「絕對改變量」，通常公衛領域更偏好使用此指標，輔助決策判斷。在統計運算中，具有完美的可壓縮性 (Collapsibility)，即在沒有干擾因素 (confounding) 的情況下，整體的邊際效應 (Marginal effect) 會等於各個次群體分層效應 (Conditional effect) 的加權平均值。整體母體的邊際風險差，必定等於各分層風險差的加權平均，整體數值定會介於分層數值間。。
相對指標 (multiplicative scale)： 因果風險比 (RR) 與因果勝算比 (OR)，衡量風險變化的相對倍數。跨群體穩定性較高且直觀易懂，通常流病領域更常使用此指標，但易掩蓋絕對嚴重性。需特別注意的是，OR不具有可壓縮性，未調整的 OR (整體) 通常會比調整後的 OR (分層) 更趨近於無效應 (OR=1)，此現象又稱為「衰減效應」，因此不同OR間不可直接進行互比!
NNT/ NNH (number needed to treat/ harm) ：是指平均需要治療多少人，才能成功避免一次不良結果的發生（等於因果風險差絕對值的倒數），公衛領域常用。

至於要選用以上哪一種效應估計指標，取決於研究目的。

🔹在因果推論中，隨機變異 (Random variability) 會產生隨機誤差 (random error)，主要分成以下兩個來源：

抽樣變異 (Sampling variability)：現實研究中，通常只能取得母體的一小部分「樣本」進行觀察。利用樣本數據來推估真實母體的狀況時，會因為抽樣本身的隨機性而產生誤差。雖然根據大數法則 (law of large numbers)可知樣本數越大，抽樣變異會互相抵消，使估計值越接近真實母體數值，達到一致估計量 (consistent estimator)，但我們仍須仰賴統計方法來評估因果關係的假設。
非決定性反事實 (Nondeterministic counterfactuals)：個體在某種處置下的潛在結果，可能並非「非黑即白」的絕對狀態（如：一定會發生或一定不發生），而是帶有機率性質的（如：接受治療後有 90% 的機率死亡、10% 的機率存活）。這種源自事物本質上的隨機不確定性，是無法單靠收集更多資料來消除的。

🔹 因果 vs. 相關 (causation vs. association) 這是最關鍵的觀念！

👉 因果性 是比較「同一個完整母體」在兩種不同平行時空下的風險（全體皆接受處置 vs. 全體皆未接受處置）。

因關注的是反事實結果在整個母體中的發生率，屬於邊際機率 (marginal probability)或無條件機率 (unconditional probability)。

👉 相關性 是比較「現實中剛好接受不同處置的兩群人」的風險。

因關注的是在「已知實際處置狀態」的條件下，結果發生的機率，屬於條件機率 (Conditional Probability)。
但這兩群人的健康基礎可能根本不同，因此可能造成干擾 (confounding）。若直接把相關當因果，未考慮群體間的隱藏差異，可能會得出嚴重偏誤的結論 (biased)！
Independence (獨立性): 當處置 A 與結果Y間「沒相關性 (no association)」時，在統計上稱兩者為獨立，也就是個體實際接受哪一種處置，完全無法用來預測其結果。
觀察性研究觀察到沒有相關性，並不保證「沒有因果效應」，需在排除所有干擾因子，且滿足一致性 (Consistency) 等條件時，我們才能將觀察到的獨立性或相關性，等同於因果性。