高校数学B 分散ってなんでこの式なんだ? 〜式の意味と誕生の物語〜

分散の定義を生徒に教えるとき、たいていの方ががこう聞いてきます。

「なんで“平均とのズレ”を2乗するの?」

直接声には出さない人も、もしかしたら心の中ではなんでだろうーともやもやしているかもしれませんね。

この記事では、「分散ってなんでこの式なんだ?」という疑問についてお答えします。

またさらに「分散という考え方そのものはいつ、なぜ生まれたのか?」という歴史的背景もわかりやすく解説!

“分散の式の意味”“分散の誕生エピソード”をまとめたコラムです。

※この記事は、林個別指導塾が運営する学習ブログです。

▶︎ 高校数学B「統計的な推測」シリーズ全体の目録はこちら!

分散とは何か?

分散とは、確率変数(またはデータの値)が平均からどれくらいバラついているか(=ズレているか)を測る指標です。

数学的な定義では、各データと平均の差(偏差)を2乗して、その平均をとることで求められます。

つまり:

  • 各データが平均からどれだけズレているかを調べたい
  • プラスマイナスのズレが打ち消し合わないようにしたい
  • そのためにズレを2乗して、重み付きの平均をとる

という目的で定義されています。

なんで2乗するの?

平均からの「ズレ」を単純に足すと、正のズレと負のズレが打ち消し合って、合計がゼロになってしまいます。

→ そこで、「ズレを2乗する」ことで、すべてのズレを正の数にし、合計できるようにします

でも、この正のズレと負のズレの打ち消しを解消する方法。

よく考えると2乗以外にもいくつかありますよね。たとえば:

  • 絶対値をとる(平均絶対偏差)
  • 4乗する(尖度など)

では、なぜ絶対値や4乗ではなく2乗なのか?

2乗のメリット:

  • 滑らかで扱いやすい関数(微分や解析に有利)
  • 大きなズレに対して強く反応(極端な値が影響しやすくなる)
  • 理論上の性質が美しい(線形変換や正規分布との関係性)

このように、数学的な便利さや応用性の面から「2乗」が選ばれているのです。


では逆に、絶対値や4乗のパターンは存在しないのか。

いいえ、それぞれ使用される場面があります。

4乗が使われる場面

データの分布の“とがり具合”や“尖り具合”を測るために、4乗が使われることもあります。

これは 尖度(kurtosis) という指標で、分散や標準偏差だけでは分からない、分布の形状を評価する際に役立ちます。

4乗は2乗よりもさらに外れ値の影響を強く受けるため、極端なデータを見つけたいときに用いられます。

平均絶対偏差が使われる場面

実は、分散ではなく 平均絶対偏差(MAD) が使われる場面もあります。

  • 統計の初学者向けの授業や説明資料
  • ロバスト統計(外れ値に強い解析)
  • 中央値のばらつき指標として

例えば、平均絶対偏差は中央値を中心としたズレの平均であり、外れ値に引っ張られにくいという利点があります。

ただし、計算のしやすさ・数式の整合性・後続の解析(分布との関係など)においては、やはり「分散」の方が優れています。


以上が「なぜ分散はこの式なんだ?」の答えです!

続いて、統計と分散の歴史について見ていきましょう。

分散はいつ誕生した?

分散の概念が統計学に定着したのは19世紀末〜20世紀初頭。

特に重要なのは、カール・ピアソン(Karl Pearson)フランシス・ゴルトン(Francis Galton) の功績です。

それ以前の統計学では:

  • 平均(または中央値)を求める
  • 複数の観測値を使って推定する際に標準誤差を計算する (※当時の標準誤差は、現代の標準誤差と比べると厳密ではない)

といったアプローチが主流で、「データ全体のばらつき」を定量的に示す指標は明確に定義されていませんでした。

分散以前の“ばらつきの扱い”

たとえば平均の精度(標準誤差)を見積もる際、以下のような手法がありました:

  • 各データから平均を引き、その差を手動で確認
  • 単純な最大値・最小値の差(レンジ)
  • グラフでざっくり可視化

しかし、これでは厳密性に欠け、学術的な議論には向きませんでした。

標準誤差のような考え方は存在していましたが、それを求める手法はばらばらで、理論的な裏付けが弱かったのです。

分散の導入は、こうした曖昧な処理に終止符を打ちました。

分散という発明

分散は最初からこの形で存在していたわけではありません。

もともとは観測誤差の評価などに使われていた「二乗平均」の考え方が徐々に一般化され、「平均からの偏差を2乗して平均をとる」形式が統計学の中核として定着していきました。

これは、ちょうど正規分布と親和性が高いという事実(=中心極限定理との関係)も後押ししました。

現在では、

「データの広がりを測る一番合理的な方法」

として、分散が欠かせない存在になっています。

ちなみに標準誤差とは?

標準誤差とは、平均値そのものがどのくらいブレるかを表した数値です。

たとえば、30人の生徒に数学のテストを行い、平均点が60点だったとします。これを「全体の平均点の代表」として使いたいとき、この60点がどれくらい信頼できるかを考えるのが「標準誤差」です。

標準誤差が小さいと、「この平均点は信頼できる!」と言えます。大きいと「この平均点はたまたま偏ったかも…?」という判断になります。

目安として:

標準誤差 ≒ 標準偏差 ÷ √n(n=人数)

平均点の信頼性を測る“ものさし”と覚えておきましょう。

※標準誤差については、仮設検定の章で詳しく扱います

標準誤差の元になる標準偏差

標準誤差は、「標準偏差がわかっていること」を前提にして定義されます。

つまり、標準誤差を求めるには、まず標準偏差が分かっていなければならないのです。

これは「個々のデータがどれくらいズレているか(標準偏差)」をもとに、「その平均(標本平均)はどれくらいブレるか(標準誤差)」を求めるという流れだからです。

分散ってないとだめ?(平均と標準誤差だけではなぜ不十分?)

先ほどの例に戻ります。

あるクラス30人の数学のテストの平均点が「60点」、標準誤差が「3点」だったとしましょう。

ここで知りたいのは:

  • このクラスの成績の“ブレ”はどれくらい?
  • 生徒の得点は60点前後に集中しているのか、それとも広がっているのか?

平均と標準誤差だけでは、「この平均点がどの程度代表的か」しか分かりません。

でも、分散や標準偏差がわかれば:

  • 得点がどれくらいバラついているか
  • 外れ値があるのか、ないのか
  • 個々の生徒の点数分布の広がり

といったことがわかります。

つまり、分散はデータそのものの特徴をつかむための指標。標準誤差だけでは不十分なのです。

まとめ

  • 分散は、平均からのズレの大きさを数値で表す指標。
  • ズレが打ち消し合わないよう2乗している。
  • 2乗には、解析・応用上のメリットが多い。
  • 絶対値や4乗を使った方法もあり、場面に応じて使い分けられる。
  • 分散は「データのばらつきを数値化する」というニーズに応えて定義された。
  • 標準誤差は「平均値そのもののばらつき」を表し、推定や検定の基礎となる。
  • 標準誤差は標準偏差をもとに求められる。
  • 平均と標準誤差だけでは、個々のデータの広がりはわからない。

数式にとらわれすぎず、「何をしたいか」に目を向けると、分散の意味が見えてきます。

なぜ二乗なのか、分散の誕生エピソード。

今回のコラムで、統計について単なる計算作業以上に興味を持ってもらえたらうれしいです。


▶︎ 高校数学B「統計的な推測」シリーズ全体の目録はこちら!

共通テスト・入試に向けて学習プランを立てて取り組みたい方は、学習相談・入塾相談などお気軽にお問い合わせください。

▶︎ [公式LINEに登録する]
▶︎ [お問い合わせフォームへ]

Follow me!

高校数学B 分散ってなんでこの式なんだ? 〜式の意味と誕生の物語〜” に対して3件のコメントがあります。

コメントは受け付けていません。