統計学の基礎に出てきた用語：メモ

『社会人のためのデータサイエンス入門』のWeek2で出てきた見慣れない用語について、まとめて尋ねておいて、ここにメモとして残しておくことにする。

Ｑ）統計学の基礎の用語の意味、関係を理解したいと思います。言葉の意味を中学生にもわかるように解説してください。順序は変更しても構いません。必要に応じてグラフも交えてください。グラフのフォントが文字化けしないよう、次のフォント（NotoSansJP-Black）をアップロードします。その後、解説してほしい用語を伝えます。よろしいですか？

ファイルのアップロードありがとうございます。これからフォントを使用してグラフを作成し、解説を進めていきます。まずはフォントをシステムに読み込ませますので、少々お待ちください。

その後、解説してほしい用語を教えていただければ、順次進めていきます。

ズラズラと、講座で出てきた用語を並べた。

◆ 量的データ（ディメンジョン）と質的データ（メジャー）

量的データ（ディメンジョン）

量的データとは、数値で表されるデータのことです。例えば、身長や体重、点数などが該当します。これらは数値で計測でき、算術的な操作が可能です。

質的データ（メジャー）

質的データとは、カテゴリーや種類を表すデータのことです。例えば、性別、血液型、好きな色などが該当します。これらは数値で計測できませんが、グループ分けや分類が可能です。

◆ 名義尺度と順序尺度

名義尺度

名義尺度とは、カテゴリーに数値を割り当てるだけの尺度です。例えば、1を「男性」、2を「女性」とするように、数字自体には意味がなく、ただのラベルとして使います。

順序尺度

順序尺度とは、カテゴリーに順序がある場合の尺度です。例えば、1を「初心者」、2を「中級者」、3を「上級者」とするように、数字に順序があるものです。

◆ 間隔尺度と比例尺度

間隔尺度

間隔尺度とは、データ間の差を数値で表せる尺度です。例えば、温度や日付が該当します。差は計測できますが、絶対的な「ゼロ」が存在しません。

比例尺度

比例尺度とは、間隔尺度の特性を持ち、さらに「ゼロ」が絶対的な値として存在する尺度です。例えば、身長や体重が該当します。ゼロが存在し、比率も意味を持ちます。

◆ クロス集計表

クロス集計表とは、二つの質的データの関係を表す表です。例えば、性別と血液型の関係を示す場合に使われます。

血液型A 血液型B 血液型O 血液型AB

男性 10 5 15 3

女性 12 8 14 2

	血液型A	血液型B	血液型O	血液型AB
男性	10	5	15	3
女性	12	8	14	2

◆ 代表値：平均値、中央値、最頻値

代表値を理解するために、以下のデータセットを使用して説明します。

データセット: 1, 2, 2, 3, 4, 5, 5, 5, 6

平均値

データの合計をデータの個数で割ったものです。例として、1, 2, 3, 4, 5の平均は

(1+2+2+3+4+5+5+5+6)/9 = 3.67

中央値

データを小さい順に並べたとき、中央に位置する値です。データの数が奇数の場合は中央の値、偶数の場合は中央の二つの値の平均を取ります。この場合、データは既に並んでいますので、中央の値は5番目の値、つまり4です。

最頻値

データの中で最も頻繁に出現する値です。このデータセットでは5が最も頻繁に出現しています。

◆ ヒストグラムと関連用語（階級、階級値、度数、相対度数、累積相対度数）

ヒストグラム

ヒストグラムは、データの分布を視覚化するための棒グラフです。データをいくつかの「階級」に分け、その階級に含まれるデータの数（度数）を棒の高さで表します。

階級と階級値

階級はデータをグループに分けた区間です。階級値は各階級の中央の値を指します。

度数

度数は、各階級に含まれるデータの数です。

相対度数

相対度数は、度数を全データの数で割った値です。つまり、各階級に含まれるデータの割合を示します。

累積相対度数

累積相対度数は、相対度数を階級ごとに累積していった値です。

◆ 離散変数と連続変数

離散変数

離散変数は、特定の値しか取らない数値データです。例えば、サイコロの目の数（1, 2, 3, 4, 5, 6）が該当します。

連続変数

連続変数は、任意の値を取ることができる数値データです。例えば、身長や体重が該当します。

◆ 四分位、パーセンタイル、箱ひげ図、四分位偏差

四分位

四分位はデータを四等分する値です。第1四分位（Q1）、中央値（Q2）、第3四分位（Q3）があります。

パーセンタイル

パーセンタイルはデータを百分位に分ける値です。例えば、90パーセンタイルはデータの上位10%を示します。

箱ひげ図

箱ひげ図はデータの分布を視覚的に示す図です。箱の両端が第1四分位と第3四分位を示し、箱の中の線が中央値を示します。箱から出るひげがデータの範囲を示します。

四分位偏差

四分位偏差は第1四分位と第3四分位の差を2で割ったものです。データの散らばりを示します。

◆ 分散、偏差、標準偏差

分散

分散はデータの散らばり具合を示す指標です。データの各値と平均値との差を二乗し、その平均を取ります。

偏差

偏差は各データ点と平均値との差です。

標準偏差

標準偏差は分散の平方根を取ったものです。データの散らばり具合をより理解しやすくします。

◆ 相関関係、散布図、相関係数、疑似相関、SSDSE、SSDSE-A

相関関係

相関関係は、二つの変数がどの程度関連しているかを示します。

散布図

散布図は、二つの変数の関係を視覚的に示す図です。各点がデータのペアを示します。

相関係数

相関係数は、二つの変数間の相関関係の強さを数値で表します。値は-1から1の範囲で、1に近いほど正の相関が強く、-1に近いほど負の相関が強いことを示します。

疑似相関

疑似相関は、二つの変数間に見かけ上の相関があるように見えるが、実際には他の変数が影響している場合のことです。

SSDSEとSSDSE-A

これらは、具体的な統計手法や指標で、特定の統計学的な分析に使われるものです。詳細な説明は別途専門的な資料を参照してください。

◆ 共分散、正の相関、無相関、負の相関

共分散

共分散は、二つの変数がどの程度一緒に変動するかを示す指標です。正の共分散は変数が同じ方向に変動することを示し、負の共分散は反対方向に変動することを示します。

正の相関

正の相関は、一つの変数が増加するともう一つの変数も増加する関係です。

無相関

無相関は、二つの変数間に関係がない状態です。

負の相関

負の相関は、一つの変数が増加するともう一つの変数が減少する関係です。