どうも!初めましての方は初めまして、初心者のWebサイト勉強のとみーです!
統計学を学ぶ上で大切なのは、
手元のデータがどのような集団から集められたか
ということで、これを数学的に議論するために観測空間という概念が存在します。
観測空間は、英語の本や論文などでは Observation Space と呼ばれています。
今回は、その観測空間について理解を深めましょう!
統計学における観測空間 $(\underline{\mathcal{X}}, \underline{\mathscr{A}})$
観測空間 $(\underline{\mathcal{X}}, \underline{\mathscr{A}})$ とは、
確率変数 $\underline{X}$ が値を取る可測空間
です。
ポイントは次の2つです。
- 確率変数 $\underline{X}$ が値を取る標本空間
- 可測空間
具体例を通して見ていきましょう。
確率変数 $\underline{X}$ が値を取る標本空間
「サイコロを1回振る」という場面を考えましょう。
このとき、サイコロの出る目を確率変数 $\underline{X}$ とすると、$\underline{X}$ は1〜6の値を取ります。記号で書くと
$$\underline{X} \in \{ 1, 2, 3, 4, 5, 6\}$$
ですね。
サイコロの目は1〜6まですべて同じ確率で出るので、$\underline{X}$ は一様分布に従います。
ここで、上式の $\{ 1, 2, 3, 4, 5, 6\}$ はすべての目を含んだ集合になっています。
このように確率変数が取るすべての値を含んだ集合を標本空間といい、$\underline{\mathcal{X}}$ と表します。
$$\mathcal{\underline{X}} = \{ 1, 2, 3, 4, 5, 6\}$$
確率変数 $\underline{X}$ は必ず標本空間 $\underline{\mathcal{X}}$ 内の値を取ります($\underline{X} \in \underline{\mathcal{X}}$)。逆に考えると、例えば $\mathcal{\underline{X}} = \{1,2,3\}$ の状況で $\underline{X} = 5$ のようになるようなことはあり得ません。
なぜ標本空間を考えるのか
標本空間は、分かりやすく言えば
どういう集団からデータを取ってきたか
を表しています。
サイコロに何面あるかがわからないと、確率を計算したり平均値を求めたりできませんよね。
平均値の算出などの統計的処理のためには、標本空間を考えることが大事なのです。
観測空間 $(\underline{\mathcal{X}}, \underline{\mathscr{A}})$ の $\underline{\mathcal{X}}$ は標本空間を表す
それでは $(\underline{\mathcal{X}}, \underline{\mathscr{A}})$ の $\underline{\mathscr{A}}$ は一体何者でしょうか?標本空間 $\underline{\mathcal{X}}$ さえわかれば「どんな集団からのデータか」を判断するのには十分な気がしますよね。
その答えとなるのが、可測空間です。
可測空間
話を簡単にするために、ここでは4面のサイコロ(目が1〜4)を考えます。振る回数は1回です。
$$\underline{\mathcal{X}} = \{ 1, 2, 3, 4\}$$
さて、サイコロが実際に出せる目は1〜4しかありませんが、見方を変えると奇数が出る場合や偶数が出る場合も考えられますよね。
つまり、「1か3が出る」事象や「2か4が出る」事象というのが存在します。
さらに極端な例を考えると「1か2か3か4が出る」事象なんて言うのも考えられます。
「1か2が出る」という事象を $\{ 1, 2\}$ のように表すと、考えられる事象は全部で次の15通りもあります。
また、「1か2か3か4が出る」というのは「サイコロを1回振った」ということと同じなので、逆に「サイコロを1回も振っていない」という事象も考えられるでしょう。
この場合は、
空集合 $\phi$
を使って表します。
空集合も含めると、全部で16通りです。
標本空間 $\underline{\mathcal{X}}$ しか与えられていないと、今のような数え上げを毎回行わなければならないので、さすがに面倒ですよね。そこで、あらかじめ
\begin{eqnarray} \underline{\mathscr{A}} = &\{& \\ && \phi, \{ 1\}, \{ 2 \}, \{ 3 \}, \{ 4 \}, \\ &&\{ 1, 2 \}, \{ 1, 3 \}, \{1, 4\}, \\ &&\{ 2, 3 \}, \{ 2, 4 \}, \{ 3, 4 \}, \\ &&\{ 1,2,3 \}, \{1,2,4 \}, \{1,3,4\}, \{2,3,4\} \\ &&\{ 1,2,3,4\} \\ &\}&\end{eqnarray}
という集合の集合(集合族)を考えておき、
こういう事象が発生しますよー
という情報も事前に用意しておくのです。
この $\underline{\mathscr{A}}$ にはσ加法族という名前が付いています。
観測空間 $(\underline{\mathcal{X}}, \underline{\mathscr{A}})$ の $\underline{\mathscr{A}}$ は
σ加法族を表す
一般に、集合 $E$ とσ加法族 $\mathscr{E}$ をペアにして考えた $(E, \mathscr{E})$ のことを可測空間と言います。
観測空間は標本空間とσ加法族のペア
つまり、観測空間は標本空間 $\underline{\mathcal{X}}$ とσ加法族 $\underline{\mathscr{A}}$ をペアで考えた可測空間です。
2つをペアにして考えることで
が分かりやすくなります。
σ加法族についてもっと詳しく
ここまでで何となくのイメージは掴めたと思います。
標本空間はそのままなので難しくないですが、σ加法族はとっつきにくいですよね。。。
ここからはσ加法族について、もう少し詳しく見ていきましょう。
部分集合族とは
σ加法族を考える前に、まず部分集合族とは何かを理解する必要があります。
部分集合
2つの集合 $E, F$ について、$F$ の全ての要素が $E$ に含まれているとき、 $F$ は $E$ の部分集合であるといいます。
記号で書くと、
$$F \subset E$$
です。
例えば $E = \{ a, b, c, d, e, f\}, F = \{ c, e\}$ について、
は $E = \{ a, b, \color{red}c\color{black}, d, \color{red}e\color{black}, f\}$ に含まれているので、$F$ は $E$ の部分集合です。
部分集合族
ある集合族 $\mathcal{E}$ と集合 $E$ について、$\mathcal{E}$ の全ての要素(集合)が $E$ の部分集合であるとき、$\mathcal{E}$ は $E$ の部分集合族であるといいます。
集合族は、集合の集合でしたね。
記号で書くと
$$\forall A \in \mathscr{E}, A \subset E$$
です。
例えば、$\mathscr{E} = \{ \phi, \{a \}, \{a, b\} \}$ と $E = \{a,b,c\}$ について、
- $\phi \subset E$
- $\{a\} \subset E$
- $\{a, b \} \subset E$
なので、$\mathscr{E}$ は $E$ の部分集合族です。
以上を踏まえて、σ加法族の定義を見てみましょう。
σ加法族とは
次の3つを満たす、ある集合 $E$ の部分集合族 $\mathscr{E}$ をσ加法族といいます。
- $\phi \in \mathscr{E}$
- $A \in \mathscr{E} \implies E \backslash A \in \mathscr{E}$
- $(A_n)_{n \in \mathbb{N}} \in \mathscr{E}^{\mathbb{N}} \implies \displaystyle \bigcup_{n \in \mathbb{N}} A_n \in \mathscr{E}$
順番に意味を見ていきましょう。
$\phi \in \mathscr{E}$
これは、「何もしない」事象が含まれているということです。
$A \in \mathscr{E} \implies E \backslash A \in \mathscr{E}$
これは、事象 $A$ が含まれているなら、その余事象も含まれているということです。
$E \backslash A$ は集合 $E$ の中で $A$ を除いた部分を表します。集合の引き算のようなイメージですね。
例えばサイコロを1回振ったときに、
「1の目が出る」
という事象があるならば
「1以外が出る=2〜6のどれかが出る」
という事象もある、ということです。
当然といえば当然ですよね。
$(A_n)_{n \in \mathbb{N}} \in \mathscr{E}^{\mathbb{N}} \implies \displaystyle \bigcup_{n \in \mathbb{N}} A_n \in \mathscr{E}$
これは、事象 $A$ と事象 $B$ が含まれているなら、その和事象 $A \cup B$ も含まれているということです。
例えばサイコロを1回振ったときに、
「1の目が出る」
「2の目が出る」
という事象があるならば
「1か2が出る」
という事象もある、ということです。
これまた当然ですね!
σ加法族は複数存在する
以上の3つの性質を備えていれば何でもσ加法族といえるので、実は1つの集合に対するσ加法族はいくつも存在します。
例として、
- $E = \{1, 2, 3, 4 \}$
- $\mathscr{E} = \{\phi, \{1, 3\}, \{ 2,4\}, \{1,2,3,4\}\}$
を考えましょう。
- 条件1
$\phi \in \mathscr{E}$ なので、条件1は満たされています。
- 条件2
- $\phi$ の余事象は $E$ で、$E \subset \mathscr{E}$ です。
- $\{1, 3\}$ の余事象は $\{2, 4\}$ で、$\{2, 4\} \subset \mathscr{E}$ です。
よって、条件2も満たされています。
- 条件3
- $\phi \cup \{1, 3\} = \{1, 3\} \subset \mathscr{E}$
- $\phi \cup \{2,4\} = \{2,4\} \subset \mathscr{E}$
- $\phi \cup \{1,2,3,4\} = \{1,2,3,4\} \subset \mathscr{E}$
- $\{1, 3\} \cup \{2,4\} = \{1,2,3,4\} \subset \mathscr{E}$
- $\{1, 3\} \cup \{1,2,3,4\} = \{1,2,3,4\} \subset \mathscr{E}$
- $\{2,4\} \cup \{1,2,3,4\} = \{1,2,3,4\} \subset \mathscr{E}$
よって、条件3も満たされています。
以上より、$\mathscr{E} = \{\phi, \{1,3\}, \{ 2,4\}, \{1,2,3,4\}\}$ はσ加法族です。
そして、最初の方に説明した4面サイコロを振る例の
\begin{eqnarray} \underline{\mathscr{A}} = &\{& \\ && \phi, \{ 1\}, \{ 2 \}, \{ 3 \}, \{ 4 \}, \\ &&\{ 1, 2 \}, \{ 1, 3 \}, \{1, 4\}, \\ &&\{ 2, 3 \}, \{ 2, 4 \}, \{ 3, 4 \}, \\ &&\{ 1,2,3 \}, \{1,2,4 \}, \{1,3,4\}, \{2,3,4\} \\ &&\{ 1,2,3,4\} \\ &\}&\end{eqnarray}
も $E$ のσ加法族です(確認してみましょう!)。
σ加法族に関する注意点
上の例からわかる注意点として
σ加法族は元の集合の全ての部分集合を含むとは限らない
ということがあります。
先ほどの $\mathscr{E} = \{\phi, \{1, 3\}, \{ 2,4\}, \{1,2,3,4\}\}$ には、$\{1 \}$ や $\{3,4\}$ が含まれていませんね。
すべての部分集合を含まなくてもいい場合
4面サイコロを振る例について引き続き考えましょう。
得られたデータをもとに分析を行う際に、実際の目の数値はどうでもいいけど「奇数が出たかどうか」を知りたいという場面は珍しくありません。
この場合、大切なのは「1が出る」事象や「2が出る」事象ではなく、「奇数が出る」事象です。
そのため、ここではすべての事象を含んだ $\underline{\mathscr{A}}$ は考えすぎで、
$$\mathscr{E} = \{\phi, \{1,3\}, \{ 2,4\}, \{1,2,3,4\}\}$$
で十分役目を果たすことができます。
「奇数が出る」事象は $\{1,3\}$、「奇数が出ない」事象は $\{2,4\}$で、どちらも $\mathscr{E}$ に含まれていますね。
このように注目したいものが限定的な場合は、すべての事象を網羅したσ加法族 $\underline{\mathscr{A}}$ を使わずに、
$$(E, \mathscr{E})$$
を観測空間として設定することが考えられます。
一般的に選ばれるσ加法族
とはいえ実際は色んな事象を考慮したい場合が多いので、一般的にはすべての事象を網羅したσ加法族が使われます。
標本空間が離散の場合
例えば標本空間が $\mathbb{N}$ や $\mathbb{Z}$ の場合です。
このような場合、σ加法族には標本空間の冪集合($\mathcal{P}(\mathbb{N})$ や $\mathcal{P}(\mathbb{Z})$)を考えることが多いです。
冪集合とは、ある集合のすべての部分集合を集めた集合族です。
例えば $E = \{1, 2\}$ の冪集合は、$\mathcal{P}(E) = \{ \phi, \{1\}, \{2\}, \{1,2\}\}$ です。
つまり、$(\mathbb{N}, \mathcal{P}(\mathbb{N}))$ や $(\mathbb{Z}, \mathcal{P}(\mathbb{Z}))$ を観測空間として取ることが多いです。
標本空間が $\mathbb{R}$ の場合
標本区間が $\mathbb{R}$ の場合は、$\mathcal{B} (\mathbb{R})$ という記号で表される任意の
を含むσ加法族を使うことが多いです。
なんだか抽象的で分かりにくいですが、要するにほとんどすべての事象を含んでいるσ加法族です。
「ほとんどすべて」ということは完全にすべての事象を含んでいるわけではないのですが、そうした $\mathcal{B} (\mathbb{R})$ から除外された集合の確率は普通考えないので、基本的には何でも含んでいるσ加法族という認識で問題ありません。
正式には、$\mathcal{B} (\mathbb{R})$ は $\mathbb{R}$ のすべての開集合から生成されるボレルσ加法族ですが、統計学の入門者としてはそこまで詳しく知る必要はないと思います。
練習問題
問題1
コインを1回投げ、出た面を確率変数 $\underline{\mathcal{X}}$ とします。このときの観測空間を答えなさい。ただし、σ加法族は冪集合を用いるものとします。
$$(\underline{\mathcal{X}}, \underline{\mathscr{A}})$$
標本空間 $\underline{\mathcal{X}} = \{表, 裏\}$
σ加法族 $\underline{\mathscr{A}} = \{ \phi, \{表\}, \{裏\}, \{表, 裏\}\}$
問題2
$E = \{a, b, c\}, \mathscr{E} = \{\phi, \{a\}, \{a, b\}, \{a, b, c\} \}$ とするとき、$\mathscr{E}$ はσ加法族かどうか答えなさい。
$E \backslash \{a, b\} = \{c\} \notin \mathscr{E}$ なので、σ加法族ではありません。
まとめ
今回は、統計学の観測空間についてσ加法族まで踏み込んでご紹介しました。
完璧に理解しようとすると難しいですが、実際にはそこまで細かく踏み込んでいくわけではないので、忘れたらまた戻ってくるくらいで十分です!
コメント