『社会人のためのデータサイエンス入門』のWeek2で出てきた見慣れない用語について、まとめて尋ねておいて、ここにメモとして残しておくことにする。
Q)統計学の基礎の用語の意味、関係を理解したいと思います。言葉の意味を中学生にもわかるように解説してください。順序は変更しても構いません。必要に応じてグラフも交えてください。グラフのフォントが文字化けしないよう、次のフォント(NotoSansJP-Black)をアップロードします。その後、解説してほしい用語を伝えます。よろしいですか?
ファイルのアップロードありがとうございます。これからフォントを使用してグラフを作成し、解説を進めていきます。まずはフォントをシステムに読み込ませますので、少々お待ちください。
その後、解説してほしい用語を教えていただければ、順次進めていきます。
ズラズラと、講座で出てきた用語を並べた。
◆ 量的データ(ディメンジョン)と質的データ(メジャー)
量的データ(ディメンジョン)
量的データとは、数値で表されるデータのことです。例えば、身長や体重、点数などが該当します。これらは数値で計測でき、算術的な操作が可能です。
質的データ(メジャー)
質的データとは、カテゴリーや種類を表すデータのことです。例えば、性別、血液型、好きな色などが該当します。これらは数値で計測できませんが、グループ分けや分類が可能です。
◆ 名義尺度と順序尺度
名義尺度
名義尺度とは、カテゴリーに数値を割り当てるだけの尺度です。例えば、1を「男性」、2を「女性」とするように、数字自体には意味がなく、ただのラベルとして使います。
順序尺度
順序尺度とは、カテゴリーに順序がある場合の尺度です。例えば、1を「初心者」、2を「中級者」、3を「上級者」とするように、数字に順序があるものです。
◆ 間隔尺度と比例尺度
間隔尺度
間隔尺度とは、データ間の差を数値で表せる尺度です。例えば、温度や日付が該当します。差は計測できますが、絶対的な「ゼロ」が存在しません。
比例尺度
比例尺度とは、間隔尺度の特性を持ち、さらに「ゼロ」が絶対的な値として存在する尺度です。例えば、身長や体重が該当します。ゼロが存在し、比率も意味を持ちます。
◆ クロス集計表
クロス集計表とは、二つの質的データの関係を表す表です。例えば、性別と血液型の関係を示す場合に使われます。
血液型A 血液型B 血液型O 血液型AB 男性 10 5 15 3 女性 12 8 14 2
◆ 代表値:平均値、中央値、最頻値
代表値を理解するために、以下のデータセットを使用して説明します。
データセット: 1, 2, 2, 3, 4, 5, 5, 5, 6
平均値データの合計をデータの個数で割ったものです。例として、1, 2, 3, 4, 5の平均は
(1+2+2+3+4+5+5+5+6)/9 = 3.67
中央値
データを小さい順に並べたとき、中央に位置する値です。データの数が奇数の場合は中央の値、偶数の場合は中央の二つの値の平均を取ります。この場合、データは既に並んでいますので、中央の値は5番目の値、つまり4です。
最頻値
データの中で最も頻繁に出現する値です。このデータセットでは5が最も頻繁に出現しています。
◆ ヒストグラムと関連用語(階級、階級値、度数、相対度数、累積相対度数)
ヒストグラム
ヒストグラムは、データの分布を視覚化するための棒グラフです。データをいくつかの「階級」に分け、その階級に含まれるデータの数(度数)を棒の高さで表します。
階級と階級値
階級はデータをグループに分けた区間です。階級値は各階級の中央の値を指します。
度数
度数は、各階級に含まれるデータの数です。
相対度数
相対度数は、度数を全データの数で割った値です。つまり、各階級に含まれるデータの割合を示します。
累積相対度数
累積相対度数は、相対度数を階級ごとに累積していった値です。
◆ 離散変数と連続変数
離散変数
離散変数は、特定の値しか取らない数値データです。例えば、サイコロの目の数(1, 2, 3, 4, 5, 6)が該当します。
連続変数
連続変数は、任意の値を取ることができる数値データです。例えば、身長や体重が該当します。
◆ 四分位、パーセンタイル、箱ひげ図、四分位偏差
四分位
四分位はデータを四等分する値です。第1四分位(Q1)、中央値(Q2)、第3四分位(Q3)があります。
パーセンタイル
パーセンタイルはデータを百分位に分ける値です。例えば、90パーセンタイルはデータの上位10%を示します。
箱ひげ図
箱ひげ図はデータの分布を視覚的に示す図です。箱の両端が第1四分位と第3四分位を示し、箱の中の線が中央値を示します。箱から出るひげがデータの範囲を示します。
四分位偏差
四分位偏差は第1四分位と第3四分位の差を2で割ったものです。データの散らばりを示します。
◆ 分散、偏差、標準偏差
分散
分散はデータの散らばり具合を示す指標です。データの各値と平均値との差を二乗し、その平均を取ります。
偏差
偏差は各データ点と平均値との差です。
標準偏差
◆ 相関関係、散布図、相関係数、疑似相関、SSDSE、SSDSE-A
相関関係
相関関係は、二つの変数がどの程度関連しているかを示します。
散布図
散布図は、二つの変数の関係を視覚的に示す図です。各点がデータのペアを示します。
相関係数
相関係数は、二つの変数間の相関関係の強さを数値で表します。値は-1から1の範囲で、1に近いほど正の相関が強く、-1に近いほど負の相関が強いことを示します。
疑似相関
疑似相関は、二つの変数間に見かけ上の相関があるように見えるが、実際には他の変数が影響している場合のことです。
SSDSEとSSDSE-A
これらは、具体的な統計手法や指標で、特定の統計学的な分析に使われるものです。詳細な説明は別途専門的な資料を参照してください。
◆ 共分散、正の相関、無相関、負の相関
共分散
共分散は、二つの変数がどの程度一緒に変動するかを示す指標です。正の共分散は変数が同じ方向に変動することを示し、負の共分散は反対方向に変動することを示します。
正の相関
正の相関は、一つの変数が増加するともう一つの変数も増加する関係です。
無相関
無相関は、二つの変数間に関係がない状態です。
負の相関
負の相関は、一つの変数が増加するともう一つの変数が減少する関係です。
◆ 回帰分析と回帰直線
回帰分析
回帰分析は、二つ以上の変数間の関係をモデル化する手法です。一般的には、独立変数と従属変数の間の関係を探るために使われます。
回帰直線
回帰直線は、データポイントの最小二乗法に基づいて最も適合する直線です。この直線を使って、将来のデータを予測することができます。
◆ 標本調査と標本分布
標本調査
標本調査は、全体(母集団)から一部(標本)を取り出して調査する手法です。
標本分布
標本分布は、多くの標本の統計量の分布です。例えば、標本平均の分布が該当します。
◆ 有意抽出と無作為抽出
有意抽出
有意抽出は、特定の基準に基づいて標本を選ぶ方法です。
無作為抽出
無作為抽出は、全ての個体が等しい確率で選ばれるように標本を選ぶ方法です。
◆ 母集団、母数、母平均
母集団
母集団は、調査対象となる全体の集まりです。
母数
母数は、母集団の特性を示す値です。例えば、母平均や母分散が該当します。
母平均
母平均は、母集団全体の平均値です。
◆ 標本、標本サイズ、標本数、標本比率
標本
標本は、母集団から取り出した一部の集まりです。
標本サイズ
標本サイズは、標本の個数です。
標本数
標本数は、調査に使用する標本の数です。
標本比率
標本比率は、標本内の特定のカテゴリーの割合です。
◆ 信頼区間
信頼区間は、母集団の真の平均値が特定の範囲内にあると推定する区間です。例えば、95%信頼区間は、真の平均値がその区間内にある確率が95%であることを示します。