« 東山界隈散策 | トップページ | スマホ利用時間急増 »

2013年5月 2日 (木)

ワードマイナーの利用

この三日ほどテキストマイニング用ソフトのワードマイナーを使って被災地の方々の自由回答の分析をしてました。だいぶソフトの使い方にも慣れてきてマニュアルを見ないでも作業が出来るようになってきました。

ExcelファイルをCSVファイルになおしたものをワードマイナーで読み込み、フェイス項目などの原始変数を質的変数に、テキスト型の原始変数を分かち書きして構成変数に変換するのが出発点になります。分かち書き作成にもっと時間がかかるのかと思ったら案外サクサクできるのですね。

分かち書きしたものから助詞や、。「」などの記号を落としてキーワードを抽出します。さらに同義語や類義語のキーワードを置換辞書でまとめていきます。Excelで作成した置換辞書を貼り付けられることを今日知りました。これは便利な機能です。

キーワードの編集が出来るとクラスター分析にかけます。サンプル×キーワードの巨大で疎な行列の情報を対応分析で15次元ほどに集約し、この成分データを使ってクラスターを作ります。20〜30くらいのクラスターを作ると解釈がしやすいようですね。

クラスターごとに有意に多いキーワードと有意に少ないキーワードが出力されますので、だいたいクラスターの特徴がつかめます。さらにもとの自由回答文をクラスターごとに仕分けして出力するコマンドもあって、これは便利ですね。KJ法で自由回答を仕分けするのと似たテイストですが、数千も自由回答があると容易ではありません。この仕分け作業を再現可能な方法で自動的に行えるのはありがたいです。

膨大な自由回答文もクラスターごとに読むことで内容を把握しやすくなります。中には多義的なクラスターもあったりしますが、クラスター数を増やすか、そのクラスターだけを対象にクラスター分析を行うことで多義性を解消することもできそうです。

あと性年齢別や地域や職業別、避難形態や避難地域別に有意に多いキーワードや有意に少ないキーワードを抽出することもできます。あるいはこれらの質的変数別に有意に多いクラスターや少ないクラスターの抽出もできそうです。こういった方法でどういう属性や状況の人がどんな要望や問題点をお持ちなのかの分析もできそうです。

こんなことをしてるとあっという間に時間が過ぎていきますが、自由回答のテキストマイニング分析の目鼻がついてきたのは朗報ですね。

|

« 東山界隈散策 | トップページ | スマホ利用時間急増 »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: ワードマイナーの利用:

« 東山界隈散策 | トップページ | スマホ利用時間急増 »