どうも!初めましての方は初めまして、初心者のWebサイト勉強のとみーです!
ここ数年の機械学習・人工知能に対する需要・人気の高まりを受けて、背景となる統計・数学について勉強する機会も増えてきました。
最近ではプログラミング言語が非常に使いやすくなっており、たったの数行で機械学習ができるようになってきています!
統計学を勉強する上での第一歩は、データをどのように表記するかを理解することです。
そこで今回は、データを表すために使われる記号の使い方について見ていきましょう!
統計学におけるデータの表記法
データの書き方には色々なバリエーションがありますが、本サイトでは
の3つをデータを表す文字として使います。
それぞれの使い方は、例を通して見ていきましょう。
$\underline{x}$ は集計したデータ(標本)を表す
サイコロを $n$ 回振った時に出た目を集計する例を考えましょう。このとき、出た目を
$$x_1, x_2, \cdots, x_n$$
のように表すことにします。
この表記を用いると、サイコロを7回振った結果は次の表のようになります。
$x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | $x_6$ | $x_7$ |
---|---|---|---|---|---|---|
3 | 5 | 1 | 2 | 2 | 6 | 3 |
1回目に3が出て、2回目に5が出て、…といった感じですね。
このとき、集められたデータをわざわざ $x_1, x_2, \cdots, x_n$ と書くのは大変なので、$\underline{x}$ と書きます。つまり、
$$\underline{x} = (x_1, \cdots, x_n)$$
としてベクトルのように表します。
先ほどの表のデータは、$\underline{x} = (3,5,1,2,2,6,3)$ と表せます。
$\underline{x}$ は集計したデータ全体(標本)を表す。
$\mathcal{\underline{X}}$ は標本空間を表す
$\underline{x} = x_1$ の場合(サイコロを1回振った場合)を考えましょう。目は1〜6のどれかなので
$$x_1 \in \{1, 2, 3, 4, 5, 6 \}$$
が成り立ちます。
1〜6の中から1つを選ぶイメージですね。
このとき、上の式の $\{1, 2, 3, 4, 5, 6\}$ は、サイコロが出せるすべての目を集めた集合です。
このように、すべての場合を含んだ集合を標本空間(母集団)と呼び、$\mathcal{\underline{X}}$ で表します。
先ほどの $\underline{x}$ とこの $\mathcal{\underline{X}}$ を用いると、
$$\underline{x} \in \mathcal{\underline{X}}$$
となります。これは、標本は母集団から集められると言う意味です(当然ですね)。
例えばサイコロを2回振った場合、$(x_1, x_2) = (1, 1)$ や $(x_1, x_2) = (6, 4)$ のような組み合わせが考えられるため、標本空間は
$$\mathcal{\underline{X}} = \{ 1, 2, 3, 4, 5, 6 \}^2$$
となります。
同様に
$$\underline{x} = (x_1, x_2) \in \{ 1, 2, 3, 4, 5, 6 \}^2 = \mathcal{\underline{X}}$$
が成り立ちます。
$\mathcal{\underline{X}}$ は標本空間を表す。
$\underline{X}$ は確率変数を表す
先ほど $\mathcal{\underline{X}}$ の説明で、サイコロを1回振った時の目 $x_1$ は1〜6のどれかになることを確認しました。
$x_1$ は実際に出た目なので定数ですが、また別の機会にサイコロを1回振れば違う目が出る可能性がありますよね。
つまり、$x_1$ は定数なんだけど、ちょっと変数的な側面も備えているのです。
このようにどっちつかずの状態だと扱いが難しいので、次のように考えます。
- (サイコロを振る前)サイコロを1回振る時に出る目を $X_1$ とする。
- まだサイコロを振っていないので、$X_1$ は1〜6のどれかわからない変数として扱う。
- (サイコロを振った後)目が出たので $X_1$ はこの時点で変数でなくなる。そこで、変数だった時と区別するために、実際に出た目は $x_1$ で表す。
ポイントは、実際に出る前の目を大文字 $X_1$ で表し、出た後の確定された目を小文字 $x_1$ で表すところです。
このように、起こりうる値(今回の例だとサイコロの目)を変数として考えた $X_1$ のことを確率変数、実際に観測された値 $x_1$ のことを実現値といいます。
確率変数は、確率分布に従います。
例えばサイコロはどの目も $\frac{1}{6}$ の確率で出ますが、これはサイコロの出る目を表す確率変数 $X$ がすべての事象が同確率で起きる一様分布という確率分布に従うからです。
$n$ 回振った場合も考え方は同じです。
1回目に出た目(実現値)が $x_1$ ということは、それに対応する確率変数 $X_1$ が存在し、2回目に出た目(実現値)が $x_2$ ということは、それに対応する確率変数 $X_2$ が存在します。
まとめて考えると、実現値が $\underline{x} = (x_1, \cdots, x_n)$ なので、確率変数は $\underline{X} = (X_1, \cdots, X_n)$ ということになります。
$\underline{X}$ は確率変数を表す。
練習問題
問題1
コインを3回投げ、順番に表、裏、裏の結果が得られました。このときの $\underline{x}$ を答えなさい。
$$\underline{x} = (表, 裏, 裏)$$
ちなみに、$x_1 = 表$、$x_2 = 裏$、$x_3 = 裏$ です。
問題2
コインを2回投げた時の目を $\underline{x}$ とするとき、標本空間 $\mathcal{\underline{X}}$ を求めなさい。
$$\mathcal{\underline{X}} = \{ (表, 表), (表, 裏), (裏, 表), (裏, 裏) \}$$
まとめ
今回は、統計学を学ぶ上での第一歩となるデータの表記法についてご紹介しました。
これらの表記を使って、統計学の勉強をスタートしましょう!
コメント