Description
Summary
Causal Discovery란 주어진 데이터로부터 원래의 인과 그래프를 찾는 것입니다.
기존에 다뤘던 Causal Inference는 (인과 그래프를 가정한 상황에서) 처치의 효과를 추정하는 것입니다.
Preliminary
Pearl's Causal Model
Judea Pearl 교수님은 Observation(L1), Intervention(L2), Counterfactual(L3)를 formulate하고 더 낮은 level로 더 높은 level을 설명할 수 없는 framework을 제시하였습니다.
SCM (Structural Causal Model)은 변수 별 원인과 결과를 나타내는 그래프를 만들고 이들간 함수적 관계를 표현하는 도구입니다.
T라는 변수에 Intervention을 하게 되면 T로 incoming하는 edge들은 사라지는 것을 표현할 수 있습니다.
Graphical Model
세 확률변수 X, Y, Z가 있을 때 C가 given되었을 때 X와 Y는 조건부 독립인 경우는 다음을 말하며
PGM (Probabilistic Graphical Model)에서 conditioning에 따라 조건부 독립성 특성이 달라지는 세 가지 구조가 있습니다.
- Fork (X<-Z->Y): X와 Y는 서로 종속적이나, Z를 조건부로 두면 서로 독립이 된다.
- Chain (X->Z->Y): X와 Y는 서로 종속적이나, Z를 조건부로 두면 서로 독립이 된다.
- V-structure (X->Z<-Y): X와 Y는 서로 독립이나, Z를 조건부로 두면 서로 종속적이다.
조건부 독립성 특성을 이용하여 인과 그래프를 살펴볼텐데, 이 특성을 이용해도 그래프를 특정짓지 못하여 Causal Discovery를 못하는 경우가 발생합니다.
MEC (Markov Equivalence Class)는 조건부 독립성 특성이 같은 그래프 집합을 말하며, 독립성 특성이 같으므로 그래프를 unique하게 특정짓지 못하게 됩니다.
위에서 설명한 SCM 외에도 DAG (Directed Acyclic Graph), BN (Bayesian Network) 등 다양한 그래프가 있습니다.
BN은 DAG를 가정하고, SCM은 BN을 가정합니다.
Assumptions for Causal Discovery
Causal Discovery에는 많은 가정들을 포함하는데, 이들은 원인과 결과를 명확하게 알고, 데이터로 추정한 확률 분포로부터 그래프를 추정하기 위한 가정들입니다. 아래의 모든 가정이 무조건 필요한 것은 아니며, 최근에는 Acyclicity 등의 가정을 완화하는 연구들도 많습니다.
- Acyclicity: SCM은 DAG를 포함하므로, 그래프 내 순환성이 없어야 한다.
- Causal Markov Assumption: 그래프 내 각 노드는 오로지 자손(descendant) 노드에만 의존한다.
- Causal Minimality Assumption: 불필요한 인과관계는 그래프 내에 존재하지 않아야 한다. (not allow Y = 0 ⋅ X)
- Causal Sufficiency: 그래프 내 모든 변수들의 관측되지 않은 confounder는 존재하지 않는다.
- Faithfulness Assumption: 그래프 내 연결된 노드는 확률적으로도 의존한다.
Methods
Causal Discovery에는 크게 Intervention을 이용하는 방법과 Intervention을 이용하지 않고 주어진 관측 데이터(Observational Data)만 이용하는 방법이 있습니다.
Causal Discovery with Intervention
Intervention은 가장 기본적으로는 두 변수간 관계를 찾고 싶은 방법인데, 모든 변수들의 인과관계를 찾고 그래프를 만들어나가기 위해선 여러 번의 intervention이 필요합니다. 다음과 같이 변수 X 혹은 Y에 한번만 intervention을 하게 되면 IEC (interventional Equivanlence Class; MEC의 intervention 가한 버전)로, (worst case의 경우) 구별할 수 없게 됩니다.
따라서, 우리는 여러가지 intervention 세팅이 있겠지만, intervention 자체는 굉장히 비용이 비싼 행위이므로 최소한의 intervention으로 인과그래프를 찾아야 합니다.
Causal Discovery with Observations
관측 데이터를 이용한 방법은 크게 3가지 방법으로 나뉩니다. 조건부 독립성을 이용한 Constraint-based 방법 (혹은 Independence-based 방법), 모델의 적합성(fitting) 점수를 이용한 score-based 방법, 그리고 SCM의 변수 간 함수적 관계의 함수 클래스에 제약을 가하는 functional 방법이 있습니다.
각각의 대표적인 방법은 아래와 같습니다: