標本

2008年11月19日

QC検定の基礎 母集団と標本

標本調査の代表的なものに、新聞社やテレビ局などの報道機関が行う世論調査があります。その中でも、内閣支持率は頻繁(ひんぱん)に節目に発表されています。
この調査は有権者全員を対象にするのではなく、有権者の中から数千人程度を選び出して行うことが多いと思います。
しかし、たとえ全員を対象にしていなくても、一部の有権者を対象にするだけでかなりの精度の高い結果が得られてきます。
この内閣支持率のように、集団から一部を抜き取って行う調査を標本調査と言います。

この標本から得られたデータだけでなく、その母集団を推定、検定することが重要となってきます。
先日もコメントしましたが、麻生内閣支持率を標本データで調査したものを、有権者全体では何%なるのかを推定しますと
1027人のうち420人が「支持する」と回答したことより
    ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
有権者全体としては95%の確からしさでは
     37.5%<p<44.3%
の人が支持するとなります。

ここでの約束事として、中心極限定理が成り立つことを前提としております。
中心極限の定理とは
「母平均m、母分散σ2乗の母集団から大きさnの標本を無作為に抜き取ったとき、母集団が正規分布に従っていなくても、標本が十分大きければ、標本平均は期待値m、分散σの2乗/nの正規分布N(m、σ2乗/n)に従うとみなすことができる」
でありましたね。

このように、標本調査の結果をもとにして母数の平均値や分布状況を推測しようとするものが推測統計と呼ばれています。





山田ジョージ at 10:51|PermalinkComments(0)TrackBack(0)

2008年11月12日

統計解析で内閣支持率を推定する。

QC検定で統計解析の推定について

先日、全国世論調査の結果が新聞で発表されていました。
その中の調査項目の一つであった「今の内閣を支持しますか?」
は40.9%となっていました。
ここで世論調査について統計の観点から解説します。
*調査の方法はコンピューターでランダムに電話をかける方法
でRDD法と呼ばれている方法。n=1027人となっています

世論調査とは、全員と対象におこなうのではなく、全国の有権者
の中からランダムに選び、それらの人を対象に調査することです。
たとえ、全員の有権者を対象にしなくても、一部の有権者を対象
にするだけで、かなり精度の高い結果が得られると言われてい
ます。この世論調査のように、集団から一部を抜き出しておこな
う調査を標本調査と言われています。
大数の法則
「nが十分大きければ、ほとんどの場合、標本で得られた平均値
は母集団の平均値に近い値をとる」
が該当してきます。

中心極限定理
「nが十分大きければ、母集団の従う確率分布に関係なく
標本平均は正規分布に従う」

ではこの標本から
有権者全体の内閣を支持する割合を求めてみます。
その支持する比率=母比率をpとすると
その標本の支持すると答えた人の人数をXとすると、Xの従う
確率分布は二項分布B(n、p)となります。
ここでnが十分に大きいと考えて、中心極限定理より
期待値=np、分散=np(1−p)の正規分布に置き換えること
ができます。

今回で支持すると答えた人の割合X/n=標本比率p-barとした
とき母比率pを推定してみるとします。
標本が十分大きいとき、標本比率p-barは期待値=p、
分散=p(1−p)/nに従うとみなすことができます。
この標本比率p-barを標準化してZに置き換えると
Z=(p-bar−P)/(√P(1−P)/n) となり
このZは標準正規分布N(0、1)に従います。

それでは、母比率pに対する信頼区間を求めてみますと、
標準正規分布N(0,1)に従う確率変数Zが95%の確率で
満たす不等式は
    −1.96<Z<+1.96より
       ↓ ↓ ↓ ↓ ↓ ↓
p-bar−1.96√p(1-p)/n<p<p-bar+1.96√p(1-p)/n
となります。
ここで標本nが十分に大きいので、大数の法則により標本比率
p-barはpに近い値をとると考えると
「95%の確からしさで母比率pは標本比率p-barを中心にした
幅が2*1.96√p-bar(1-p-bar)/nの区間内にある」
といえることになります。
これを計算すると
     37.5%<p<44.3%
となります。
今回の世論調査は
1027人のうち420人が「支持する」と回答したことより
    ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
有権者全体としては95%の確からしさでは
     37.5%<p<44.3%
の人が支持するとなります。
いずれにしても、50%に達しておりませんね。

*−1.96<Z<+1.96とありますが、なぜ1.96なのか
解りますか?これが解らないとQC2級の合格は?。。。。
そんな人のために
QC検定2級eラーニング





山田ジョージ at 10:53|PermalinkComments(0)TrackBack(0)