データの「ものさし」を使いこなす!
4つの尺度水準(名義・順序・間隔・比例)をマスターしよう
はじめに:データの種類
データ分析の世界へようこそ!分析を始める前に、まず扱うデータの「種類」を理解することが不可欠です。データは大きく2つに分けられます。
質的データ 🎨
数字そのものに計算上の意味がなく、カテゴリーや種類を区別するためのデータ。(例:「はい/いいえ」、血液型)
量的データ 📊
数値で表され、その大きさや量に意味があるデータ。(例:身長、温度)
そして、これらのデータは、その性質に応じて「尺度水準」と呼ばれる4つの基準でさらに詳しく分類されます。この尺度水準を理解することが、正しいデータ分析への第一歩です。
4つの尺度水準
名義尺度 🏷️
質的データ単なる分類や識別のためのラベル。数値であっても、大小や順序に意味はありません。
- スポーツ選手の背番号
- 郵便番号・電話番号
- 学籍番号
順序尺度 🥇
質的データ順序や大小関係に意味があるデータ。ただし、その間隔は一定ではありません。
- 100m走の順位 (1位と2位のタイム差 ≠ 2位と3位のタイム差)
- 地震の震度
- アンケートの5段階評価(満足、やや満足…)
間隔尺度 🌡️
量的データ目盛りが等間隔で、差に意味があります。しかし、絶対的なゼロ点がないため、比(割り算)には意味がありません。
- 気温(摂氏℃ / 華氏°F) (0℃は「熱がない」ではない)
- 西暦 (西暦0年は「時間の始まり」ではない)
- 偏差値
比例尺度 📏
量的データ絶対的なゼロ点(「無」を意味する0)が存在し、差だけでなく比(割り算)にも意味がある最も情報量の多いデータ。
- 身長・体重 (0cmは「長さがない」)
- 品物の価格・時給 (0円は「価値がない」)
- 絶対温度 (K)
理解を深める!尺度水準まとめ表
尺度水準 | 特徴 | できる演算 | 分類 |
---|---|---|---|
名義尺度 | 分類・識別 | =, ≠ | 質的データ |
順序尺度 | 順序関係 | =, ≠, <, > | 質的データ |
間隔尺度 | 等間隔の目盛り、ゼロは相対的 | =, ≠, <, >, +, − | 量的データ |
比例尺度 | 絶対的な原点 (0) | =, ≠, <, >, +, −, ×, ÷ | 量的データ |
💡 なぜ尺度水準が重要なの?
データの種類(尺度水準)によって、使ってよい統計的な分析手法が決まるからです。
例えば、血液型(名義尺度)のデータで平均
を計算しても意味がありませんよね?(A型とB型の平均は?となってしまいます)。同様に、満足度(順序尺度)の平均値を計算することも、厳密には正しくありません。
データ分析を行う上での大前提として、尺度水準を正しく理解しておくことは非常に重要です。
力試し!実践問題
問4 問題を見る
問題文
次の文章の空欄 サ, シ に入れるのに最も適当なものを、後の解答群のうちから一つずつ選べ。
データには文字や記号などで表される質的データと、数量で表される量的データがある。質的データは数量で表すことはできないが、「yes」→1, 「no」→0のように数値に対応させることは可能である。数値で表現されたデータは、その性質に応じて、尺度水準とよばれる基準により、名義尺度,間隔尺度,順序尺度,比例尺度の4種類に分類できる。これらのうち、 サ のデータは質的データである。
名義尺度のデータはデータをラベルによって分類することができ、スポーツ選手の背番号や学籍番号はその例である。
間隔尺度のデータはデータ間の差を取って分析することができ、 シ はその例である。
順序尺度のデータはデータを順序によって整列することができ 地震の震度や100m走の順位などはその例である。
比例尺度のデータはデータ間の比を取って分析することができ、身長や品物の価格などはその例である。
サ の解答群
- ⓪ 名義尺度と間隔尺度
- ① 名義尺度と順序尺度
- ② 名義尺度と比例尺度
- ③ 間隔尺度と順序尺度
- ④ 間隔尺度と比例尺度
- ⑤ 順序尺度と比例尺度
シ の解答群
- ⓪ 体重や5段階評価の成績
- ① 電話番号や郵便番号
- ② テストの点数や検索ランキング
- ③ 座席番号やアルバイトの時給
- ④ 気温(℃)や西暦
- ⑤ 幅跳びの記録や製造番号
正解: サ→①, シ→④
✅ 考え方のポイント
【サの判断】
質的データは、カテゴリーや順位を表すデータです。4つの尺度のうち、名義尺度(分類ラベル)と順序尺度(順位)がこれに該当します。したがって、①が正解です。
【シの判断】
間隔尺度の最大の特徴は「差には意味があるが、比には意味がない(=絶対的なゼロ点がない)」ことです。選択肢④の「気温(℃)」は、「20℃は10℃より10℃高い」と差は言えますが、0℃が熱エネルギーの無を意味しないため「2倍暖かい」とは言えません。「西暦」も同様に、西暦0年は時間の始まりではないため、間隔尺度です。これが典型例なので、④が正解です。
📚 詳しい解説
【シ の選択肢吟味】
- ⓪ 体重(比例), 5段階評価(順序)
- ① 電話番号(名義), 郵便番号(名義)
- ② テストの点数(比例), 検索ランキング(順序)
- ③ 座席番号(名義), アルバイトの時給(比例)
- ⑤ 幅跳びの記録(比例), 製造番号(名義)
このように他の選択肢は、間隔尺度ではない尺度の組み合わせ、あるいは間隔尺度と他の尺度の組み合わせになっています。純粋に間隔尺度の例として最も適切なのは④となります。