【統計学入門】データの表記法を実例とともに解説！

どうも！初めましての方は初めまして、初心者のWebサイト勉強のとみーです！

ここ数年の機械学習・人工知能に対する需要・人気の高まりを受けて、背景となる統計・数学について勉強する機会も増えてきました。

最近ではプログラミング言語が非常に使いやすくなっており、たったの数行で機械学習ができるようになってきています！

統計学を勉強する上での第一歩は、データをどのように表記するかを理解することです。

とみー

そこで今回は、データを表すために使われる記号の使い方について見ていきましょう！

対象レベル

確率の基本的な知識がある方（高校数学〜大学入門）

統計学におけるデータの表記法
$\underset{―}{x}$ は集計したデータ（標本）を表す
$\underset{―}{X}$ は標本空間を表す
$\underset{―}{X}$ は確率変数を表す
練習問題
1. 問題１
2. 問題２
まとめ

統計学におけるデータの表記法

データの書き方には色々なバリエーションがありますが、本サイトでは

$\underset{―}{x}$ ：標本
$\underset{―}{X}$ ：標本空間
$\underset{―}{X}$ ：確率変数

の３つをデータを表す文字として使います。

とみー

それぞれの使い方は、例を通して見ていきましょう。

$\underset{―}{x}$ は集計したデータ（標本）を表す

サイコロを $n$ 回振った時に出た目を集計する例を考えましょう。このとき、出た目を

$x_{1}, x_{2}, \dots, x_{n}$

のように表すことにします。

この表記を用いると、サイコロを７回振った結果は次の表のようになります。

$x_{1}$	$x_{2}$	$x_{3}$	$x_{4}$	$x_{5}$	$x_{6}$	$x_{7}$
3	5	1	2	2	6	3

１回目に3が出て、２回目に5が出て、…といった感じですね。

このとき、集められたデータをわざわざ $x_{1}, x_{2}, \dots, x_{n}$ と書くのは大変なので、 $\underset{―}{x}$ と書きます。つまり、

$\underset{―}{x} = (x_{1}, \dots, x_{n})$

としてベクトルのように表します。

先ほどの表のデータは、 $\underset{―}{x} = (3, 5, 1, 2, 2, 6, 3)$ と表せます。

$\underset{―}{x}$ は集計したデータ全体（標本）を表す。

$\underset{―}{X}$ は標本空間を表す

$\underset{―}{x} = x_{1}$ の場合（サイコロを１回振った場合）を考えましょう。目は１〜６のどれかなので

$x_{1} \in {1, 2, 3, 4, 5, 6}$

が成り立ちます。

とみー

１〜６の中から１つを選ぶイメージですね。

このとき、上の式の ${1, 2, 3, 4, 5, 6}$ は、サイコロが出せるすべての目を集めた集合です。

このように、すべての場合を含んだ集合を標本空間（母集団）と呼び、 $\underset{―}{X}$ で表します。

先ほどの $\underset{―}{x}$ とこの $\underset{―}{X}$ を用いると、

$\underset{―}{x} \in \underset{―}{X}$

となります。これは、標本は母集団から集められると言う意味です（当然ですね）。

例えばサイコロを２回振った場合、 $(x_{1}, x_{2}) = (1, 1)$ や $(x_{1}, x_{2}) = (6, 4)$ のような組み合わせが考えられるため、標本空間は

$\underset{―}{X} = {1, 2, 3, 4, 5, 6}^{2}$

となります。

同様に

$\underset{―}{x} = (x_{1}, x_{2}) \in {1, 2, 3, 4, 5, 6}^{2} = \underset{―}{X}$

が成り立ちます。

$\underset{―}{X}$ は標本空間を表す。

$\underset{―}{X}$ は確率変数を表す

先ほど $\underset{―}{X}$ の説明で、サイコロを１回振った時の目 $x_{1}$ は１〜６のどれかになることを確認しました。

とみー

$x_{1}$ は実際に出た目なので定数ですが、また別の機会にサイコロを１回振れば違う目が出る可能性がありますよね。

つまり、 $x_{1}$ は定数なんだけど、ちょっと変数的な側面も備えているのです。

このようにどっちつかずの状態だと扱いが難しいので、次のように考えます。

（サイコロを振る前）サイコロを１回振る時に出る目を $X_{1}$ とする。
まだサイコロを振っていないので、 $X_{1}$ は１〜６のどれかわからない変数として扱う。
（サイコロを振った後）目が出たので $X_{1}$ はこの時点で変数でなくなる。そこで、変数だった時と区別するために、実際に出た目は $x_{1}$ で表す。

ポイントは、実際に出る前の目を大文字 $X_{1}$ で表し、出た後の確定された目を小文字 $x_{1}$ で表すところです。

このように、起こりうる値（今回の例だとサイコロの目）を変数として考えた $X_{1}$ のことを確率変数、実際に観測された値 $x_{1}$ のことを実現値といいます。

確率変数は、確率分布に従います。

例えばサイコロはどの目も $\frac{1}{6}$ の確率で出ますが、これはサイコロの出る目を表す確率変数 $X$ がすべての事象が同確率で起きる一様分布という確率分布に従うからです。

それでは、 $n$ 回振った場合はどのように考えればいいでしょうか？

$n$ 回振った場合も考え方は同じです。

１回目に出た目（実現値）が $x_{1}$ ということは、それに対応する確率変数 $X_{1}$ が存在し、２回目に出た目（実現値）が $x_{2}$ ということは、それに対応する確率変数 $X_{2}$ が存在します。

まとめて考えると、実現値が $\underset{―}{x} = (x_{1}, \dots, x_{n})$ なので、確率変数は $\underset{―}{X} = (X_{1}, \dots, X_{n})$ ということになります。

$\underset{―}{X}$ は確率変数を表す。

練習問題

問題１

コインを３回投げ、順番に表、裏、裏の結果が得られました。このときの $\underset{―}{x}$ を答えなさい。

答え

$\underset{―}{x} = (表, 裏, 裏)$

ちなみに、 $x_{1} = 表$ 、 $x_{2} = 裏$ 、 $x_{3} = 裏$ です。

問題２

コインを２回投げた時の目を $\underset{―}{x}$ とするとき、標本空間 $\underset{―}{X}$ を求めなさい。

答え

$\underset{―}{X} = {(表, 表), (表, 裏), (裏, 表), (裏, 裏)}$

まとめ

今回は、統計学を学ぶ上での第一歩となるデータの表記法についてご紹介しました。

Amazonで見る楽天市場で見る Yahoo!ショッピングで見る

とみー

これらの表記を使って、統計学の勉強をスタートしましょう！

統計学におけるデータの表記法

x― は集計したデータ（標本）を表す

X― は標本空間を表す

X― は確率変数を表す

練習問題

問題１

問題２

まとめ

コメント

$\underset{―}{x}$ は集計したデータ（標本）を表す

$\underset{―}{X}$ は標本空間を表す

$\underset{―}{X}$ は確率変数を表す