「度数分布表」ってよく見ますよね。
先日ちょっとした作業で、マイクソロソフトのPowerAutomateの自動化処理を行っていたのです。
処理の終盤にエクセルへのデータ掃き出しがあり、そこで「Frequency関数」なんかを使ったものですから、ちょっと語ってみたくなりました。
というのも「度数分布表」って普段目にする機会が多いのに、その分析の仕方を難しそうに感じている人が意外に多かったのです。
そうであっても最低限、「度数分布表」から中央値、最頻値、平均値をどのように計算するかくらいは分かっておきたいじゃないですか。
とても簡単なので、ここでは例題を見ながら少し一緒に考えてみたいと思います。
度数分布表とは
「度数分布表」とは、データ範囲ごとにデータ数をまとめた一覧表を言います。
例えば以下のような簡易な表があったとしましょう。
これは、ある学校の1クラスの生徒が、先週の部活動に投じた時間を度数分布表にしたものです。
この表をぱっと見て分かるのは、以下になります。
- クラス全体は35人
- 階級(0時間以上2時間未満など)は5つ
- 一番多い階級は「2時間以上4時間未満」
- 一番少ない階級は「8時間以上10時間未満」
これくらいが分かっていれば、データから色々と算出できますので順番に見ていきましょう。
中央値
まずは「中央値」です。厳密に言えば「中央値が属する階級」です。
なぜなら度数分布表は、データのまとまりがあるだけなので、正確な「中央値」は分かりません。
これらの階級で「中央値」が含まれている階級はどこになるでしょうか。
中央値とは、データ(度数)を小さい順に並べた時の真ん中になります。
この表の場合、クラスが35人なので、半分は18番目となりこれが中央値になります。
最初の「0時間以上2時間未満」の階級は10人いるので、上のように先頭から10人までの範囲となります。
同じように見ていくと、18番目が所属している階級は「2時間以上4時間未満」となるので、答えは以下のようになります。
中央値が含まれる階級は「2時間以上4時間未満」
最頻値
次に「最頻値」を求めてみます。
度数分布表の最頻値では「度数が最大の階級の代表値(階級値)」となります。
度数が最大なのは、「2時間以上4時間未満」の16ですね。
代表値は、その階級の中央になります。
つまり2時間と4時間の真ん中である3時間が「最頻値」となります。
ここで重要なのは、「度数分布表の最頻値では」という点ですね。
本来、個々のデータを厳密に調査すれば、最頻値は2.5時間かもしれないし、他の階級の方に最頻値があるかもしれません。
しかし今回のような度数分布表で個々のデータが分からない時は、最頻値の定義は「度数が一番大きい階級の代表値でよい」となっているのです。
最頻値は「3時間」
平均値
最後に「平均値」を出してみましょう。
「中央値」、「最頻値」の流れでいくとこの「平均値」も個々のデータが分からないので、「階級の代表値」を使います。
それぞれの階級の代表値は中央である「1時間、3時間、5時間、7時間、9時間」で考えるわけですね。
- 1時間×10
- 3時間×16
- 5時間×5
- 7時間×3
- 9時間×1
これらの総和を全体の人数35人で割ると平均値が出ます。
10+48+25+21+9=113
113÷35=約3.22
つまり、このクラスの生徒全員が先週の部活動にかけた時間は、平均して約3.22時間である、と言えます。
(まとめ)度数分布表から「~と言える」データを探してみた
今回はちょっと統計的なお話で、度数分布表から「中央値」、「最頻値」、「平均値」を求めてみました。
度数分布表からこれらの値を求めるのはそれほど難しくないと思います。
難しくなるのは、より正確な値を求めるための「近似値」を求める場合ですね。
一応、中央値の近似値を求める公式と今回のデータの数値を当てはめた場合の答えを以下に挙げておきます。
中央値の近似値は「2.94時間」と、代表値の3時間よりは若干値が小さくなりますね。
ちなみにエクセルで表データの中央値を求める「MEDIAN」という関数は、個々のデータが分かる表において利用できる関数となります。
今回のような度数分布表では、MEDIAN関数を使った「中央値」の算出はできないので注意が必要となりますね。




