2010年12月18日 (土)

メトロポリス法のプログラム

とりあえず1変数バージョンをつくってみました。今、出先でiPhoneで打ってるので、帰ったらExcelに貼り付けてみましょう。

'初期値設定と乱数初期化
X=1
Randomize

'メインルーチン開始
For T=1 to 10000

'移動先候補
Y=X+Rnd*0.1

'確率密度計算(fは密度関数)
P=f(X)
Q=f(Y)

'移動判定
If Q>P Then
X=Y
Else
If Rnd X=Y
End If
End If

'適当な出力ルーチン(今は略)

Next T

'お終い

これで確率密度が高い方に動きやすいアルゴリズムになっているはずですが、どうでしょうか。

| | コメント (0) | トラックバック (0)

2010年12月12日 (日)

ベイズ統計の基本公式

事後分布=k尤度×事前分布

kは左辺を積分したときに1になるように定める定数。

事前分布は情報が全くなければ一様分布。何かあればそれに応じた母数の分布を想定する。尤度はある母数を仮定したときに今回観測されたデータが得られる確率。

そんなわけで、何らかの事前情報と今回観測されたデータにより得られた情報が母数の事後分布という形で統合される。これがベイズ統計の基本的な考え方。

| | コメント (0) | トラックバック (0)

2005年11月22日 (火)

重回帰分析の用語解説

重回帰分析を使いましたので、若干用語解説をしておきましょう。

重回帰分析は何かの変数(今日の分析では中国のイメージ)をいくつかの変数(テレビ視聴時間やネット利用時間など)で予測しようとする分析法です。予測に使う変数を説明変数(あるいは独立変数)といい、予測の標的となる変数を目的変数(あるいは従属変数)といいます。

目的変数をY、説明変数をX1、X2、などとして
  Y’=b1X1+b2X2+・・・
という式でYの予測値Y’を求めていきます。YとY’の差の二乗の合計がもっとも小さくなるようにb1やb2を求める方法を最小二乗法といいますが、このような方法で全体として誤差の少ない予測式を求めます。

このとき、実際の値Yと予測値Y’との相関係数を重相関係数Rといい、重相関係数Rの二乗を重決定係数R2(アールスクエア)といいます。重決定係数はYの変動のうち何%がX1やX2によって説明されるかを示す値で、モデル全体の説明力を表します。今日の分析で悪いイメージを目的変数としたときのR2が0.07となっていますが、これは人によって悪いイメージの個数が多かったり少なかったりする変動の7%が「テレビニュース視聴」と「ネット利用時間」という二つの要因で説明できる(残りの93%は他の要因で変動している)ことを示しています。7%というと少ないようですが、この手のアンケート調査による分析ではそこそこの説明力となります。

  Y’=b1X1+b2X2+・・・
のb1やb2にあたる係数を偏回帰係数といいます。YやX1やX2を平均0、分散1になるように変換する標準化という操作をしてから求めたb1やb2を標準偏回帰係数(あるいはベータ係数)といいます。これはX1やX2が1単位増えるとb1やb2の分だけY’が増えますので、それぞれの説明変数が目的変数に与える影響力の大きさを示す指標だと解釈することができます。先の分析では「テレビニュース視聴」のベータ係数が0.186、「ネット利用時間」のベータ係数は0.169となっていましたが、これはテレビニュース視聴の悪いイメージ形成に及ぼす影響力がネット利用時間の影響力よりやや大きいことを意味しています。

そんなわけで、重回帰分析の結果を見るときにはとりあえず重決定係数R2ベータ係数に注目するとよいでしょう。それぞれモデル全体の説明力と各説明変数の影響力を表しています。

| | コメント (3) | トラックバック (0)

2005年11月21日 (月)

アルファ係数

アルファ係数は尺度の内的一貫性(異質な質問が混じっていないかどうか)を判断する尺度で、0.7とか0.8とかあればよかろうとされています。詳しくはたとえば次のようなHPをご参照ください。 心理データ解析第9回(2).

| | コメント (0) | トラックバック (0)

2005年11月 6日 (日)

データマイニング

ついでにデータマイニングの簡単な解説について( データマイニング | 5分でわかるIT | 最新キーワード解説 | wisdom Business Leaders Square.)

>企業内に蓄積した膨大なデータの中から、意味のある相関関係や有効なビジネスパターンを発見する技術という意味になります。

ということですが、最近は膨大なブログのデータから意味のあるパターンや情報を見出していく手法としても使われているようで、一度ちゃんと勉強してみたいと思っています。

| | コメント (0) | トラックバック (0)

統計学の文献集

ついでに統計学の巨大な文献集を発見したので張っておきます。ざっと推計したところ600ぐらいの文献があげられています。( Bibliography.)

| | コメント (2) | トラックバック (0)

カール・ピアソン

カイ2乗検定の創始者カール・ピアソンの伝記を探そうと思ってぐぐっていたら三中先生のHPを発見しました。( MINAKA Nobuhiros pagina.)

原稿を書くときに、筆が進まないときは「引用文献リスト」から先に書くとうまくいくそうです。そんな気もします。

で、カール・ピアソンですが

>統計学けんか物語―カール・ピアソン一代記 モナド・ブックス 57 安藤 洋美 (著) 近代統計学誕生期における学問的感情的対立の歴史。

という本が出てますので、波乱万丈の生涯だったようです。

R.Aフィッシャーとの論争については「悪名高い論争」というページに一端が紹介されています。大御所ピアソンと新鋭フィッシャーの間に相当感情的な対立があったようです。まあ、フィッシャーもアクの強い人ですからねえ。

| | コメント (0) | トラックバック (0)

2005年11月 1日 (火)

「間違う確率」と「間違っている確率」

「間違う確率」と「間違っている確率」は違うという話をしましたが、もう少し補足しておきましょう。

昨日書いたとおり危険率が5%というのは、本当は関連がないときに「関連がある」と判断してしまう確率のことで、たとえば本当に関連がない事態に100回出くわしたときに95回は「関連なし」と判定するけれど、あとの5回は「関連あり」と判定してしまうことを意味します。表にすると次のようになります。

   本当\判定|「関連あり」 「関連なし」
 ―――――――――――――――――――
   関連あり  |  ア       イ
   関連なし  | 5回      95回

さてこのとき、判断が「間違っている」確率はどうかというと、実はこれだけの情報ではさっぱり分かりません。たとえば、「関連あり」という判定をしたのに本当は関連がなかった、という確率は表のアの値が分からないと求めることができません。同様に「関連なし」という判定が間違っている確率もイの値が分からないと分かりません。

ここで、「本当に関連がある事態というのは関連がない事態よりもずっと少なくて5分の1の確率でしか遭遇しない」「本当に関連があるときの検出力は90%だ」といった追加情報があったとしましょう。
そうすると、本当に関連がある事態は関連がない事態に100回遭遇するあいだに20回遭遇すると推定できます。そしてそのうち18回は正しく「関連がある」と判定され、2回は「関連がない」と判定されるであろうことも分かります。このとき、上の表は

   本当\判定|「関連あり」 「関連なし」
 ―――――――――――――――――――
   関連あり  |  18回       2回
   関連なし  |   5回      95回

となりますので、今度は判定が「間違っている」確率が求まります。すなわち、

   「関連あり」の判定が間違っている確率=5/23 (約22%)
   「関連なし」の判定が間違っている確率=2/97 (約2%)

となります。このように「間違う確率」と「間違っている確率」は全く別物で、特に「関連あり」の判定の方はかなりあてにならないものだということが分かります。

| | コメント (0) | トラックバック (0)

2005年10月31日 (月)

ついでながら

「間違いを犯す確率」と「間違っている確率」も混同されやすいですが別物です。

危険率が5%であるからと言って、検定結果が5%の確率で間違っている、ということは出来ません。一般向けの統計の本なんかでもこの種の誤りは見掛けることがありますね。まあ、注意していないとつい言い間違ってしまうことはあるのですが、本に書いてはいけないでしょう。

| | コメント (0) | トラックバック (0)

危険率と検出力

危険率というと「間違う確率」と理解されることが多いですが、どういう間違いを犯す確率かということは押さえておく必要があります。

危険率は「関連がないのに関連がある」と判定してしまう誤りを起こす確率の事で、そのような誤りを「第一種の誤り」といいます。
たとえていえば、健康なのに風邪だと判断して会社を休んだり、地震が来ないのに来ると判断して交通機関を止めたりする誤りが第一種の誤りで「空振り」に相当する誤りと言えます。したがって危険率はボール球をストライクと勘違いして空振りする確率と理解してもよいでしょう。

世の中、空振りがあれば見逃しもあります。地震が来るのに来ないと判断して被害を大きくしたり、風邪なのに健康だと判断して風邪をこじらすのが「見逃し」でこのような誤りを第二種の誤りといいます。
関連性の検定では「関連があるのに関連がないと判断する誤りが「第二種の誤り」となります。

見逃しの確率には名前がついてませんが、「見逃しをしない確率」には名前がついていて検出力と呼ばれます。ただ検出力は名前はあっても値を求めることは普通はできないので、検定結果に検出力を添えて書くことはありません。

そのため検出力は軽視されることが多いのですが、見逃しをしてもよいということは全然ありませんので、調査をするときは検出力を高める努力もしていく必要があります。

| | コメント (0) | トラックバック (0)

より以前の記事一覧