Regression discontinuity design (RDD)
#study_design
Evelyn Shiu
Population health data center, NCKU , Taiwan
2026/05/04

斷點回歸設計(regression discontinuity design, RDD)是利用一個「外在且客觀的門檻」的準實驗設計(quasi-experimental design),透過「天時、地利、人和」俱全的獨特條件,藉此消除選擇性偏差。因為在斷點附近的兩組人本質極為相似,使原本的觀察性資料在斷點邊緣也能達到如隨機分派實驗(randomized experiments)般的效果。

關於執行斷點回歸設計研究的流程與基本設定: 

第一步,定義關鍵要素。首先須定義所要探討的分配變數(assignment variable,X軸)、目標結果(outcome,Y軸)與斷點(門檻,cutoff)。分配變數部分,我們必須找到一個連續的數值,這個數值是用來決定誰可以分配到治療組的唯一標準,也就是「決定命運的尺」。斷點部分,必須確認是否存在一個明確的政策或自然界斷點,超過此線者都必須接受治療,反之未超過者皆不接受治療。重點在於,此斷點不能受「內部個人層級」因素操控,意即病人或醫師不能根據疾病嚴重程度、疾病風險高低、病人自身喜好等,決定是否接受治療,我們稱此為「外生衝擊(exogenous shock)」或「外生變異(exogenous variation)」,也就是前述的「天時」。

第二步,我們會畫出一張含有所有資料點的散佈圖(scatterplot),縱軸(Y軸)為想看的目標結果、橫軸(X軸)為分配變數,接著使用兩條多項式曲線分別去貼近、擬和(fitting)所有的資料點。觀察重點在於:這兩條曲線在斷點處是否有出現不連續的斷層或跳躍(discontinuity或jump),還是像一個平滑的溜滑梯?若有出現跳躍,則代表治療可能有效,而跳躍的高度便是治療效果的大小。

第三步分析,便是在選定的頻寬內,分別在斷點兩側進行局部線性回歸(local linear regression),並賦予愈靠近斷點的資料愈大之權重,放大其對治療效果的貢獻占比,以減少因距離斷點太遠所引入的偏差影響,最終的治療效果,即是兩側回歸線在斷點處的跳躍的高度(垂直距離)。而頻寬的選擇是基於「偏差(bias)」和「變異(variance)」的權衡藝術。

最後,雖然我們假設頻寬內的兩組人會長得非常相似,但仍須再進一步執行「穩健性檢定與效度驗證」,如: 操控檢定 (manipulation test)和可交換性檢定 (exchangeability test),增強因果推論的信心。