do演算子を定義し介入行為をモデル化することで、因果関係について記述できるようにする。具体的には、変数\(X\)に対して、意図的に介入した場合に結果\(Y\)が起こる確率を

$$ P(Y|do(X) $$

と表現する。例えば、ある薬\(D\)が寿命\(L\)に与える影響を知りたい場合は、\(P(L|do(D))\)のように表現できる。交絡は、\(P(Y|X)\)と\(P(Y|do(X))\)の不一致である。

このdo演算子は単なる表現法に留まらず、因果関係を推定するに当たって数学的な操作を可能とする"演算子"である。因果推論の科学1には、do演算子の様々なメリットが記載されているが、金本本2の「バックドア基準やフロントドア基準を統合したdo計算法」という説明が分かりやすかった。

バックドア基準

ある変数\(X\)から\(Y\)への因果効果を推定する際に、ノード間をブロックする条件を満たすことで、交絡因子を見出す方法。

  1. 変数\(X\)から\(Z\)へのパスがない
  2. 変数\(X\)と\(Y\)の間で、\(X\)に向かうパス(=パックドアパス)の全てを\(Z\)がブロックする

この2つの条件を満たすとき、\(Z\)は\(X\)と\(Y\)についてバックドア基準を満たす。バックドア基準を満たすとき、\(Z\)について条件付けることで、因果効果を識別することが可能となる。

  graph LR
    Z --> X --> Y
    Z --> Y

見るからに\(Z\)は交絡因子だが、バックドア基準を満たしている。do演算子を用いると以下のように適用できる。

$$ P(Y|do(X)) = \sum_{Z} P(Y|X, Z)P(Z) $$

フロントドア基準

バックドア基準を満たすには、交絡因子が全て観測されている必要がある。未観測の変数が存在する場合には、媒介変数を利用したフロントドア基準を用いて、因果効果を推定する。フロントドア基準の条件は以下。

  1. \(M\)は、\(X\)から\(Y\)へのパスを全てブロックする
  2. \(X\)から\(M\)へのパックドアパスがは存在しない
  3. \(M\)から\(Y\)への全てのバックドアパスは\(X\)によりブロックされている。
  graph LR
    X --> M --> Y
    Z --> X
    Z --> Y

\(Z\)は未観測の交絡因子である。この場合、\(M\)という媒介変数により、\(X\)から\(Y\)への因果効果を推定することができる。do演算子を用いると以下のように適用できる。

$$ P(Y|do(X)) = \sum_{M} P(M|do(X)) \sum_{Y} P(Y|M) $$


  1. 因果推論の科学 「なぜ?」の問いにどう答えるか (Amazon↩︎

  2. 因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ (Amazon↩︎