Conditionally i.i.d.の謎

応用の文脈では、サンプリングの際に(現実の世界で)そのサンプルが表す実体とは別に、サンプルに対応した取り得る値の空間 (range space)[1]例えばYES/NOで回答する問いについて調査をする例の場合、 {0,1}を予め設定し、range spaceに値を取る(確率)変数 X について、それが従っているとされる確率分布 F を考える[2]例えばF(X\in\{0\}) = F(X\in\{1\}) = 1/2は、表と裏を1, 0値に対応させた時のfair coinをモデリングした確率分布である。

この状況を X\sim F と書くが、実際には従うと仮定して予め設定した確率分布 F から外れたサンプルが得られる事は珍しくない。

このような場合、分析対象とする母集団の性質を考慮して元々の実験構造を見直す必要があるが、もっと根本的に、無為にサンプルから分析を始めようとすると、物理的制約のお陰で「真の無作為とは何か」という問いに突き当たる。

日々の分析の為に、私たちは戦略的にこの重要な問いをしまっておいて、今あるサンプルからその性質 — 母集団が従っていると思える確率分布 — を評価しようと試みる。

これが推論的統計の最初のモチベーションだと思えるが、empiricalな、この有限のサンプルだけを眺めているのでは “母集団” という見えない相手を評価する事は適わない。

表題にある i.i.d. というのは、統計学のjargon[3]専門用語のこと。「一般には知られていない」を強調して揶揄した、内輪スラングとして使われる事もある。で、「独立かつ同一に分布する」を表すidentically and independently distributed の acronym[4]頭文字を繋げた省略形のこと。である。

これらは確率分布の “標準的” 性質を定め、サンプルの “標準” からのズレを評価する事に役立つ。

確率分布のように複雑な対象を調べる場合、こういった三点測位的手法はしばしば用いられている。

Identically distributed random variables

確率変数が identically distributed であるという性質は、二つ以上の確率変数に対し意味を持ち、これらが一つの同じ確率分布を共有するという条件を表す。

例えばfair coinを N 回投げた時、表の出る回数を表す確率変数 X と、裏が出る回数を表す Y は、全ての k\in\{0,1,\ldots,N\}について、

    \[F_X(X\in \{k\})=F_Y(Y\in \{k\}) = \binom{N}{k} \left(\frac{1}{2}\right)^N\]

を満たす[5]X,Y\sim {\rm binom}(N,1/2)とも書く。。この時XYは同一に分布している(i.e. identically distributed)と言う[6]F_X=F_Y

Independently distributed random variables

確率変数が independently distributed であるという性質も二つ以上の確率変数に対し意味を持つ。

この説明には同時分布の概念が必要になるが、具体例を示して説明する。

前回と同様に、fair coinを N 回投げた時、表の出る回数を表す確率変数を X、裏が出る回数を表す確率変数を Y とする。

以下はN=3の時の同時分布表[7]X\in\{k\},Y\in\{l\}の時の(同時)確率を表にしたもの。であるが、X+Y=N以外は確率0になっている事が分かる。

X=0X=1X=2X=3
Y=00001/8
Y=1003/80
Y=203/800
Y=31/8000

この表で表される確率分布を F_{XY}(X\in \{k\},Y\in\{l\}) のように書き、X,Y同時確率分布と呼ぶ。

確率変数X,Yは、

    \[\forall \big((k,l)\in {\bf Im}_X\times {\bf Im}_Y\big)\big(F_{XY}(X\in\{k\},Y\in\{l\})=F_X(X\in\{k\})\cdot F_Y(Y\in\{j\})\big)\]

を満たす時、XYは独立に分布している (i.e. independently distributed) と言う[8]離散確率変数 — range spaceが離散である確率変数 — を仮定している。連続確率変数の場合、上の任意のBorel … Continue reading

明らかに、F_{XY}(X\in\{k\},Y\in\{l\})\neq F_X(X\in\{k\})\cdot F_Y(Y\in\{j\})なる(k,j) pairが存在するので、独立分布ではない。

独立な確率変数というのは、名前が表すように、一方の確率分布が他方の確率分布に影響を及ぼさない (c.f. 3人の囚人と事象の独立性)。

Xはそのままに、確率変数Zが分布 F_Z(Z\in\{l\})=1/4,\text{ for }l\in\{0,1,2,3\} に従うとすると[9]Z\sim {\rm uniform}_{\rm dis}(0,3)とも書く。X,Zは独立に分布している。

X=0X=1X=2X=3
Z=01/323/323/321/32
Z=11/323/323/321/32
Z=21/323/323/321/32
Z=31/323/323/321/32

Conditional random variable

確率変数条件付き確率も一般的に使われる用語だが、条件付き確率変数が使われる例は、少なくとも確率論・測度論の文脈では殆ど見られない(恐らく完全に受け入れられているwell-definedな定式化は存在しない)。

考えても見れば、仮に使うとしても形式的なnotation以上の意味を持たないし[10]階層モデルではこのような表記が見られる。、条件付き確率の構成 — 即ちsub-\sigma-algebra上の確率測度のRadon-Nikodym微分 — から、条件付き確率それ自体が自明に確率変数となる為、それとの区別が必要になる。

何より確率変数としてのdomainをどちらにするのか[11]条件を課される事象か、条件を規定するobservationか。といった曖昧さが残るだろう[12]その他Borel-Paradoxへの配慮もあると思う。

そういった事情から、この記事でも一貫して条件付き確率だけを考えることにする。

これは以下のように明示的に定式化される[13](33.8), Billingsley, P. (1995). Probability and Measure. Wiley.

確率変数P(A|\mathscr{Y})であって、確率空間(\Omega,\mathscr{F},P)と(sub-\sigma-algebra \mathscr{Y}に制限した) 部分空間(\Omega,\mathscr{Y},P) 上の普遍的な[14]null setを除いて一意的である。方程式

    \[\forall A\in \mathscr{F},G\in\mathscr{Y},\int_G P(A|\mathscr{Y})\,dP = P(A\cap G).\]

を満たすものを条件付き確率と呼ぶ[15]但し次の条件も満たす必要がある。 任意のに対し, は-measurableである、つまり関数としてを満たす; 任意のに対し, … Continue reading

条件付き期待値による定式化も、E(I_A|\mathscr{Y})= P(A|\mathscr{Y})により、以下のように条件付き確率を復元できる。

    \[P(A\cap G)=E(I_A I_G)=E( I_G E(I_A|\mathscr{Y})) = \int_G P(A|\mathscr{Y})\, dP\]

線形変換が基底を指定すると行列で表現されるように、条件付き確率P(A|\mathscr{Y})はobservationごとの値

    \[G\mapsto P(A|\omega\in G)_\omega \in [0,1]\]

を指定するとversion P(A|\omega\in G)が定まる。

Conditionally i.i.d.

改めて表題のConditionally i.i.d.という性質について考えよう。

これを考える事になった発端として、StackExchangeのある投稿にConditional identicality の定義について興味深い議論があった。

Conditionally IID random variablesより抜粋

少なくともConditional independenceの定義から明らかな事は、3つ以上の条件付き確率からなる集合に対する性質ということであるが、ここまでの議論から Conditionally identically distributed の定義としては2の方が相応しい事が分かる。

Conditional random variable の節にも書いたが、

  • Conditional random variableがしばしば未定義のまま使用されている
  • 著者が (用語を不注意にConditionalで修飾する事で) 意図せずしてRed Herring Fallacyを引き起こしている

事が混乱の元になっているようである。

Footnotes

Footnotes
1 例えばYES/NOで回答する問いについて調査をする例の場合、 {0,1}
2 例えばF(X\in\{0\}) = F(X\in\{1\}) = 1/2は、表と裏を1, 0値に対応させた時のfair coinをモデリングした確率分布である。
3 専門用語のこと。「一般には知られていない」を強調して揶揄した、内輪スラングとして使われる事もある。
4 頭文字を繋げた省略形のこと。
5 X,Y\sim {\rm binom}(N,1/2)とも書く。
6 F_X=F_Y
7 X\in\{k\},Y\in\{l\}の時の(同時)確率を表にしたもの。
8 離散確率変数 — range spaceが離散である確率変数 — を仮定している。連続確率変数の場合、{\bf Im}_X\times {\bf Im}_Y上の任意のBorel setについて上の等式が成り立つ必要がある。
9 Z\sim {\rm uniform}_{\rm dis}(0,3)とも書く。
10 階層モデルではこのような表記が見られる。
11 条件を課される事象か、条件を規定するobservationか。
12 その他Borel-Paradoxへの配慮もあると思う。
13 (33.8), Billingsley, P. (1995). Probability and Measure. Wiley.
14 null setを除いて一意的である。
15 但し次の条件も満たす必要がある。

  1. 任意のA\in\mathscr{F}に対し, P(A|\mathscr{Y})\mathscr{Y}-measurableである、つまり関数\Omega\to (\mathbb{R},\mathcal{B}(\mathbb{R}))として\forall U\in \mathcal{B}(\mathbb{R}),P(A|\mathscr{Y})^{-1}(U)\in \mathscr{Y}を満たす;
  2. 任意のA\in\mathscr{F}に対し, P(A|\mathscr{Y})はintegrableである、つまり\int P(A|\mathscr{Y})\, dP<\inftyを満たす.