統計の9割はウソ: 世界にはびこる「数字トリック」を見破る技術 (一般書) 単行本 – 2014/2/19
超カンタン誤差計算法
「誤差を知りたければ平方根をとれ」
対象数字が600の場合の実験データ誤差を求める場合は
√600で計算すれば、約4%となる。
P124
エンリコ・フェルミ
採用試験にも出まくりの「フェルミ推定」
ビジネスでは、たとえば新しい商品を売るときに、顧客数の見込みを立てたり、あらかじめ売上を見積もったりする際に、過去のデータや今わかっている情報を前提条件としていくつかの仮説をかけ合わせ、概算するということが頻繁に行われます。
ℚ「アメリカのシカゴには、ピアノ調律師が何人いるか?」
これを推論するためには、「シカゴの世帯数」「全世帯のうち、ピアノを保有している世帯の割合」「ピアノ1台の調律頻度」「調律師が1日に調律するピアノの台数」「調律師の労働日数」といったことを考え、これら元に計算していくことになります。
すると、
シカゴの世帯数はだいたい100万世帯→ピアノの総数はだいたい10万台→ピアノの調律は年間に1回なので、年間10万件程度→1人のピアノ調律師は年間に250日x3台(750台)調律できる→だから、調律師の人数は10万÷750で、約130人!というように、計算することができるのです。
P137
平均にだまされないための分布の見方
「分布」を見れば、本当の見方がわかる。
平均値は真ん中の数字ではない。
おもな分布グラフに
対数正規分布とべき分布(ロングテール型)
最頻値<中央値<平均値
統計では分布を見ることが大事です。
P143
分散・標準偏差の超基礎知識
平均を考えるときに重要なこと
統計では、すでにふれたように、平均値を考えるときにはまず「分布」を考えなければなりません。
最もメジャーな分布は「正規分布」と言われるものです。たとえばテストで言うなら、ほとんどの人が平均値に近い点数を取っていて、100点に近づくにつれて、また0点に近づくにつれて、人数が少なくなっていくという形をしています。左右対称に山のような形になり、100点に近い人や、0点に近い人は、山の裾野あたりにいるということになります。
また、分布を考えたら今度は「分散」や「標準偏差」というのもを考えます。
分散とは、それぞれのデータが、平均値を中心にどのように散らばっているかを示すもの。10人のデータを出すとして、10人ともが平均値に近い値になっているのか、それとも誰かが1人ずば抜けて高い(あるいは低い)データを持っているのか、あるいは10人の数値が高低にバラバラに散らばらっているのか。その散らばり具合を見るための目安として、標準編纂というものがあります。
標準偏差を計算するにはまず、それぞれのデータについて平均値からどれだけ離れているかという差を出し、その差を2乗します。その平均値が分散です。そして分散に√を付けたものが標準偏差となります。
では、実際に標準偏差を求めてみましょうか。たとえば、10点満点のテストAを5人の生徒が受けたところ、次のような点数が得られたとします。
2点/4点/5点/6点/9点
彼らの平均点は、(2+4+5+6+9)÷5で、5.2点です。
この5.2点に対して、5人の点数がプラスマイナスいくつかを計算すると、こうなります。
マイナス3.2点/マイナス1.2点/マイナス0.2点/プラス0.8点/プラス3.8点
これを全部2乗してしまいましょう。
すると次のようになります。
10.24/1.44/0.04/0.64/14.44
これを全部足して、データの数、つまりテストを受けた人数の5で割ったものが「分散」でしたね。
計算すると、5.36になりました。
標準偏差は、この5.36に√をつけます。
√5.36は、だいたい2.32となります。
よって、テストAの標準偏差は2.32です。
テストの点数というのはだいたい平均分布で表すことができますので、図のような釣鐘のような形となります。
平均値はそのてっぺんと考えます。
この図には「変曲点」とありますが、これは平均値のところからグラフの曲がり具合を見ていって、上に出っ張っている形から、下に出っ張っている形に変わる部分のことを指します。そして、この平均値から変曲点の横軸までの距離が「標準偏差」となるのです。
テストAで9点を取った人は、平均点の5.2点に標準偏差の2.32を足した7.52点よりも高い点数を取っています。変曲点を超えた高い得点ですから、この人は間違いなく上位クラスの成績ということができます。
f(x)が平均値
αが誤差