2014年8月26日 (火)

家計調査にみる食文化比較

総務省統計局の家計調査のデータを使って、食文化の比較を試みてみました。(家計調査>家計収支編>二人以上の世帯>詳細結果表>年次>2013年 の 品目分類、都道府県県庁所在市別二人以上データを使用)

「食パン」「まぐろ」「牛肉」など食品204品目について一ヶ月の平均支出額を都道府県県庁所在市と政令指定都市別に示したデータがありましたので、これを各都市の支出額偏差値(平均50、標準偏差10の得点に正規化)に変換した上で主成分分析を行いました。第1主成分(寄与率15%)を横軸と第2主成分(寄与率10%)を縦軸として各都市をプロットしたところ、次のような図が得られました。

Photo

このタイプの図では、似たような品目別支出をしている都市が近くに配置されることになりますが、概ね東日本の都市が図の右側に、西日本の都市が図の左側に配置されています。第1軸が地理的な東西に対応しているということから西日本、東日本の食文化の違いが日本の食文化の違いの基本軸になっていることが予想できます。

第2軸の意味するところはいまいちはっきりしませんが、右上に東京、横浜、さいたまといった首都圏の大都市が布置し、右下に山形、福島、秋田などの東北の地方都市が布置していること、左側についても左上に大阪、京都、神戸といった関西の大都市が布置し、左下に佐賀、宮崎、山口といった西日本の地方都市がが布置している点を見ると、大都市ー地方都市という都市規模の違いを反映している軸のようにも思えます。とすると、東西の違いについで都市規模による違いが日本の食文化の第2軸になっていると考えられます。

この図で近くに布置されている都市同士のまとまりをくくってみるとおおまかに、右上に首都圏クラスター、右下に東北・北関東クラスター、左上に関西クラスターと瀬戸内クラスター、左下に九州・四国・山陰クラスターを識別することができそうです。それぞれのクラスターについて消費の多い品目や少ない品目を見てみましょう。

東京区部や横浜、さいたまといった首都圏クラスターでは「レタス」「かぼちゃ」「トマト」といった野菜類への支出、「チーズ」「スパゲッティ」「ワイン」といったイタリアンを思わせる食材への支出、「他のめん類」「他の主食的外食」といった外食への支出が多くなっています。消費支出自体この地域では多いのですが、高い所得を背景にした生鮮野菜や洋食、外食への支出が多くなっているようです。あと「しゅうまい」の支出が多いのは、横浜を含んでいるからですが、関東一円でしゅうまい支出は多くなっているのは興味深いです。しゅうまい文化というべきものが存在するようですね。

秋田、山形、福島などの東北地方や水戸、前橋、宇都宮など北関東地域の都市からなる東北・北関東クラスターでは「納豆」「中華そば」「塩さけ」「さけ」「他のきのこ」などが支出偏差値が高くなっています。納豆というと水戸納豆が思い浮かびますが、一番支出が多いのは福島で関東から東北にかけてよく食べられている典型的な東日本要素です。「中華そば」は要はラーメンで喜多方ラーメンをはじめとして東北地方でよく食べられています。

これらは納豆文化圏、ラーメン文化圏というべきものの存在を反映していると思われますが、「塩ざけ」「さけ」が多いのは北海道や東北で漁獲が多いことを反映しているのでしょう。「他のきのこ」も東北地方での生産が多い可能性があります。生産が多いためにその食材に慣れてよく食べられているという事例かもしれません。

大阪、京都、神戸などの関西大都市クラスターで支出偏差値が特に高いのは「はくさい」「牛肉」「たこ」です。「コロッケ」「すし(弁当)」「食パン」「他のパン」がそれについでいます。「はくさい」が多いのは関西の鍋文化が関係しているようです。「牛肉」は神戸牛や但馬牛などの和牛の産地があることと、古くから牛を役畜に用いて食べる習慣があったことから消費が多いようですね。比較的高価な牛肉を買うだけの所得があることも関係しそうです。「たこ」は北海道の生産が多いのですが、明石のたこをはじめとして瀬戸内海での生産も盛んです。生産駆動型の消費のようです。

「コロッケ」「すし(弁当)」「食パン」「他のパン」は<手軽な食事>として食べられているようですね。関西的な文化の要素が背景にありそうな消費パターンです。ちなみに「納豆」の消費はこの地域では少なくなっています。歴史的に東日本で生産されてきた食材なので、現代にいたっても馴染みが薄いようです。

広島、岡山、高松などの瀬戸内クラスターはあまり目だって消費されている食材はありません。唯一、消費偏差値が60を越えて
いるのは「かき(貝)」で59に「ソース」がつけています。これは明らかに広島名物ですね。特にかきの広島での消費は偏差値107と突出しています。高松や岡山もそこそこ食べてますので瀬戸内要素と呼んでもいいでしょう。こちらは生産駆動型の消費といえそうです。「ソース」は広島焼きやお好み焼きにつき物で広島、岡山、兵庫、大阪に消費帯が広がっています。こちらは粉物文化圏に関連する文化的消費といえるでしょうか。

左下の佐賀、宮崎、鹿児島、山口、鳥取、松江、高知などの九州・四国・山陰クラスターで多いのは「焼ちゅう」「あじ」「いわし」「即席めん」「砂糖」「煮干し」です。「焼ちゅう」は鹿児島、宮崎が突出して多いですね。この地域の生産が多いためと思われます。「あじ」「いわし」は鳥取、島根、長崎で水揚げと消費が多くなっています。いずれも生産駆動型の消費のようです。「煮干し」もこの類型に入るでしょうか。

「砂糖」の消費は長野県が実は一番ですが、山陰や九州でも高めです。逆に少ないのは東京や埼玉で所得との負の相関がしてきされています。所得の高い地域では味覚が多様化しているのでしょうか。「即席めん」も所得の高い地域で少ない傾向があるようです。

ざっと、家計調査から日本各地の食品支出の特徴を眺めてみましたが、ご当地で生産しているものを食べる生産駆動型の消費、食文化に関連して消費される文化駆動型の消費、所得に依存して消費される所得依存型の消費といった類型があることがわかりました。もちろん、これらの複合型もあるわけですが、この三つの類型を念頭においておくのが有用かと思われます。

| | コメント (0) | トラックバック (0)

2010年12月22日 (水)

年齢別一般信頼の近似曲線作成

ベイズ推計のプログラムをつかって、日本の年齢別一般信頼の近似曲線を求めてみました。

Photo

第5波世界価値観調査の日本のデータから作成した年齢別集計は上の通りです。20歳と55歳にピークのある分布をしています。これを年齢の三次関数で近似する式をベイズ推計でもとめてみました。

年齢をxとして,xにおける信頼率の近似式を

 y(x)=ax^3+bx^2+cx+d

とします。年齢xで「信頼する」と答えた人数をn1(x)、「用心する」と答えた人数をn2(x)とし、事前分布を一様分布とすると

 事後分布 ∝ Πy(x)^n1(x)*(1-y(x))^n2(x)

となります(Πはxについて総積をとる)。これでパラメーターa、b、c、dの確率分布を示す式が得られました。

メトロポリス法のプログラムを用いてa、b、c、dの平均を求めたいのですが、そのためには前回のプログラムを4変数に拡張する必要があります。初期値を

  A = 0
  B = 0
  C = 0
  D = 0.5

とし、移動先の候補値を

  AM = A + (0.5 - Rnd) * 0.05
  BM = B + (0.5 - Rnd) * 0.05
  CM = C + (0.5 - Rnd) * 0.05
  DM = D + (0.5 - Rnd) * 0.05

とするプログラムを組んで5000回ランダムウォークさせ、はじめの1000回を飛ばして平均を求めたところ次のようになりました。

 a=-0.279
 b= 0.056
 c= 0.170
 d= 0.374

ただしxは15歳から75歳を-1から1までの値に変換したものを使っています。これを使って近似曲線を図示すると次のようになります。15歳と40歳で誤差が大きくなっていますが、まあまあよく再現できているといえるでしょう。

Photo_2

a、b、c、dのセットは最初の1000セットを除外して4000セット得られています。これから10セットをランダムに選んで近似曲線を図示すると次のようになりました(赤の曲線。紺が実測値)。本当は100セットくらいサンプリングした方がいいのでしょうけど、色を揃えるのが面倒なので10セットにしましたが、各年齢について15ポイントほどの幅があることがわかります。

Photo_3

100本引いて95本の通る範囲を求めれば95%信頼区間が得られる勘定になりますが、これでも誤差の大きさの目安ぐらいにはなるでしょう。各年齢50人~100人ほどのサンプル数であることを考えれば妥当な結果だと思います。誤差の範囲に実測値は大体収まっていますので、三次式による近似もそこそこ有効なようです。

このテクニックを使えば年齢の刻み方が違っていたり、年齢別データが断片的に得られていたりするようなデータを「同化」することができるはずです。次の課題といえるでしょう。

| | コメント (0) | トラックバック (0)

2010年12月19日 (日)

ベイズ推計を手に入れた

ベイズ推定に使うメトロポリス法のプログラム、若干の修正が必要でしたがちゃんと動くようになりました。主な修正点は移動先の候補を

 X + (0.5 - Rnd) * 0.1

で求めるようにしたことと、移動先の確率密度が負になるときには0にするIF文を追加したことです。プログラムは次の通りで、これで事後分布の平均や95%信頼区間を求めることができます。

--------------------------------------------

Sub メトロポリス1218()

' メトロポリス法 Macro
' マクロ記録日 : 2010/12/18
'

'初期値設定と乱数初期化
  X = 0.5
  Randomize

'メインルーチン開始
  For T = 1 To 10000

'移動先候補
  Y = X + (0.5 - Rnd) * 0.1

'確率密度計算
  P = X ^ 250 * (1 - X) ^ 750
  Q = Y ^ 250 * (1 - Y) ^ 750
 
  If Q < 0 Then
   Q = 0
  End If

'移動判定
  If Q > P Then
   X = Y
  Else
   If Rnd < Q / P Then
     X = Y
   End If
End If

'出力ルーチン
    
   Sheets("sheet1").Cells(T + 1, 1).Value = X

  Next T
   
End Sub

--------------------------------------------

ためしに1000人中250人が「はい」と答えるという架空の調査結果に対して、「はい」と答える確率の事後分布を求めてみました。

個々の調査対象者が「はい」と答える確率がxのとき、1000人中250人が「はい」と答える事象が発生する確率は

  C(1000,250)*x^250*(1-x)^750

です。ここでC(1000,250)は1000人から250人を選ぶときの場合の数を表します。これが「はい」と答える確率がxのときの尤度(ゆうど)となります。

事後分布は尤度と事前分布の積に比例するので、事前分布を一様分布とすると

 事後分布 ∝ x^250*(1-x)^750

となります。上のメトロポリス法のプログラムによって事後分布に比例した確率でランダムウォークさせると次の図のようになりました。

Photo

これからヒストグラムをつくると次のようになります。

Photo_2

この結果から事後分布の平均を求めると25%で、調査対象者が「はい」と答える確率の95%信頼区間は、22%~28%であることがわかりました。それぞれ妥当な結果ですので、プログラムが期待通りの動きをしていると考えることができます。

これは簡単な例ですが、もっと複雑な式になる場合でも同様にパラメーターの平均や信頼区間を求めることができますので、一応ベイズ推定ができるようになったということができるでしょう。

| | コメント (0) | トラックバック (0)