« ボーダフォン、ワンセグ対応3G機『Vodafone 905SH』を発表 | トップページ | 温暖化の原因は?オゾン層破壊かCO2か…正解は1割 »

2006年3月16日 (木)

テキストデータマインニング

テキストデータマインニング(あるいは単にテキストマインニング)とは、文章のデータ(テキストデータ)を半ば数量化したうえで、探索的な統計分析を行うことです。アンケート調査の自由回答、顧客の注文やクレーム、ブログや掲示板の書き込みなどを分析して、意義のありそうな情報を抽出するのに用いられます。

具体的には、まずテキストデータに含まれるキーワードを抽出して出現回数や係り結びのパターンをカウントしていきます。どのようなキーワードを設定するのか、類似のキーワードをどのレベルで区別し、あるいは統合するのか、活用のある品詞の処理や文末の処理をどうするのか、といったことが実際の作業では大事になります。

文章ごとにキーワードの頻度表ができあがれば、サンプルの性年齢別やある製品やブランドの好き嫌い別などでキーワードの出現頻度を比較して、どのようなサンプルがどのようなキーワードを用いる(=どのような体験をしたり、どのようなイメージを持ったりしているのかを近似的にあらわす)のかを知ることができます。

また、異なるキーワードが同時に出現する頻度(共起性)を調べてキーワードを似たもの同士に分類したり、サンプルをいくつかのグループにクラスター分けすることも可能です。キーワードAとキーワードBの共起性の指標としては
    (AとBを同時に使った人の数)÷(AかBかどちらかを使った人の数)
といった値がよく用いられるようです。

この共起性に指標をキーワードの「近さ」だと考えて、多次元尺度構成法や数量化Ⅳ類を用いたり、あるいはキーワードの出現表を単に数量化Ⅲ類やコレスポンデンス分析にかけたりすればキーワードのマッピングが出来上がります。この結果を用いてサンプルをマッピングしたり、クラスター分析を併用してキーワードやサンプルのグループ分けをすることもできます。

-------------------------------------------

というわけで、テキストデータマインニングというのは大略このような分析をするみたいですね。SPSSから、一連の処理を実行するソフトが出ているようで、ブログの書き込みから、携帯キャリアのイメージを探ったり、どんな人がどのようなイメージを持つのか探ったりなんてことがそれを使えばできそうではあります。実際に実行するには、大量に書き込みを収集して整形したり、筆者の属性を推定したりといった手間がかかるのでそれはそれで大変そうではありますが、面白そうなテーマではあります。

|

« ボーダフォン、ワンセグ対応3G機『Vodafone 905SH』を発表 | トップページ | 温暖化の原因は?オゾン層破壊かCO2か…正解は1割 »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/121873/9119804

この記事へのトラックバック一覧です: テキストデータマインニング:

« ボーダフォン、ワンセグ対応3G機『Vodafone 905SH』を発表 | トップページ | 温暖化の原因は?オゾン層破壊かCO2か…正解は1割 »