中心極限定理
2008年11月19日
QC検定の基礎 母集団と標本
この調査は有権者全員を対象にするのではなく、有権者の中から数千人程度を選び出して行うことが多いと思います。
しかし、たとえ全員を対象にしていなくても、一部の有権者を対象にするだけでかなりの精度の高い結果が得られてきます。
この内閣支持率のように、集団から一部を抜き取って行う調査を標本調査と言います。
この標本から得られたデータだけでなく、その母集団を推定、検定することが重要となってきます。
先日もコメントしましたが、麻生内閣支持率を標本データで調査したものを、有権者全体では何%なるのかを推定しますと
1027人のうち420人が「支持する」と回答したことより
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
有権者全体としては95%の確からしさでは
37.5%<p<44.3%
の人が支持するとなります。
ここでの約束事として、中心極限定理が成り立つことを前提としております。
中心極限の定理とは
「母平均m、母分散σ2乗の母集団から大きさnの標本を無作為に抜き取ったとき、母集団が正規分布に従っていなくても、標本が十分大きければ、標本平均は期待値m、分散σの2乗/nの正規分布N(m、σ2乗/n)に従うとみなすことができる」
でありましたね。
このように、標本調査の結果をもとにして母数の平均値や分布状況を推測しようとするものが推測統計と呼ばれています。
2008年11月12日
統計解析で内閣支持率を推定する。
QC検定で統計解析の推定について
先日、全国世論調査の結果が新聞で発表されていました。
その中の調査項目の一つであった「今の内閣を支持しますか?」
は40.9%となっていました。
ここで世論調査について統計の観点から解説します。
*調査の方法はコンピューターでランダムに電話をかける方法
でRDD法と呼ばれている方法。n=1027人となっています
世論調査とは、全員と対象におこなうのではなく、全国の有権者
の中からランダムに選び、それらの人を対象に調査することです。
たとえ、全員の有権者を対象にしなくても、一部の有権者を対象
にするだけで、かなり精度の高い結果が得られると言われてい
ます。この世論調査のように、集団から一部を抜き出しておこな
う調査を標本調査と言われています。
大数の法則
「nが十分大きければ、ほとんどの場合、標本で得られた平均値
は母集団の平均値に近い値をとる」
が該当してきます。
中心極限定理
「nが十分大きければ、母集団の従う確率分布に関係なく
標本平均は正規分布に従う」
ではこの標本から
有権者全体の内閣を支持する割合を求めてみます。
その支持する比率=母比率をpとすると
その標本の支持すると答えた人の人数をXとすると、Xの従う
確率分布は二項分布B(n、p)となります。
ここでnが十分に大きいと考えて、中心極限定理より
期待値=np、分散=np(1−p)の正規分布に置き換えること
ができます。
今回で支持すると答えた人の割合X/n=標本比率p-barとした
とき母比率pを推定してみるとします。
標本が十分大きいとき、標本比率p-barは期待値=p、
分散=p(1−p)/nに従うとみなすことができます。
この標本比率p-barを標準化してZに置き換えると
Z=(p-bar−P)/(√P(1−P)/n) となり
このZは標準正規分布N(0、1)に従います。
それでは、母比率pに対する信頼区間を求めてみますと、
標準正規分布N(0,1)に従う確率変数Zが95%の確率で
満たす不等式は
−1.96<Z<+1.96より
↓ ↓ ↓ ↓ ↓ ↓
p-bar−1.96√p(1-p)/n<p<p-bar+1.96√p(1-p)/n
となります。
ここで標本nが十分に大きいので、大数の法則により標本比率
p-barはpに近い値をとると考えると
「95%の確からしさで母比率pは標本比率p-barを中心にした
幅が2*1.96√p-bar(1-p-bar)/nの区間内にある」
といえることになります。
これを計算すると
37.5%<p<44.3%
となります。
今回の世論調査は
1027人のうち420人が「支持する」と回答したことより
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
有権者全体としては95%の確からしさでは
37.5%<p<44.3%
の人が支持するとなります。
いずれにしても、50%に達しておりませんね。
*−1.96<Z<+1.96とありますが、なぜ1.96なのか
解りますか?これが解らないとQC2級の合格は?。。。。
そんな人のために
QC検定2級eラーニング
2008年10月23日
QC検定の基礎となる正規分布について
QC検定の基礎となる正規分布について
中心極限の定理とは
母集団が正規分布、一様分布、二項分布などどのような分布を
していても、標本が十分大きければ、次のようなことが成り立つと言われています。
「母平均m、母分散σの母集団から大きさnの標本をランダムに
抽出したとき、このnが十分大きければ、母集団の従う確率分布に
関係なく、標本平均は期待値m、分散σ/nの
正規分布N(m、σ/n)に従うとみなすことができる」
と言う事です。
正規分布とに従うとわかれば標準化ですね。
正規分布曲線は期待値μと分散σによって位置や形が変わるので、確率(=面積)を直接求めることは難しいので、
そこでμやσによらない方法で確率を求めるために次のように
XをZに置き換えてみると
X→Z=(X−μ)/√σ
このとき置き換えたZも確率変数となってきます。
確率変数Zは期待値=0、分散=1の正規分布に従うと言われています。
このような正規分布N(0、1)を標準正規分布と言われています。
また、μやσがどんな値であっても、上記の式に置き換えれば、
どんな正規分布でもからなず標準正規分布に置き換えられます。
このことを標準化=規準化といいます。
さらにN(0、1)は正規分布表としてまとめられてあるので、
容易に、確率を求めることができます。(正規分布表は省略)
QC検定2級以上を受験する人は、この標準化の置換することを
知っていることが大事です。
これまで、QCサークルを主体に経験を重ねてこられた方で
標準化と聞いてQCストリーの中での歯止め=標準化を思い出すようではもう少し統計の勉強をする必要がありますね。
そんな人のために無料レポートを作成しました。
計算問題、統計が苦手な人など参考になればと思います。
QC検定2級計算問題解説