学習アルゴリズムの勝負
先日までのシミュレーションで、集団間学習の割合が多いほど、また学習速度は遅いほど協力が維持されやすいことが判明しました。では、他の集団の戦略をよく真似するプレーヤーや、学習の速度が遅いプレーヤーはそうではないプレーヤーより得なのでしょうか。この問題を考えるために、学習アルゴリズムの異なるプレーヤー同士の累積利得を比較してみることにしました。
具体的には例えば集団間学習を行う割合が0.9のプレーヤーと0.1のプレーヤーを50人ずつまぜて5000回プレーを行い、この間の累積利得の比較を行いました。ただし、累積利得を単純に足すとオーバーフローするのでそれまでの累積利得を毎期1%ずつ割り引いて、新しい利得を足す方法をとっています。
その結果、上の例では試行の度に0.9のプレーヤーが勝ったり負けたりして挙動が安定しないことがわかりました。そこで、試行の回数を増やして5000回の試行を30試行ずつ行って平均をとったところ、0.9の方が0.1よりわずかながらしかし有意に損という結果が得られました。つまり、他の集団のメンバー真似をしやすいプレーヤーの方が自分の集団のメンバーを真似しやすいプレーヤーよりもわずかながら損だということになります。
集合間学習の割合を0.9対0.3や0.9対0.5に変えてみても、あるいは人数比を50人50人以外に90人10人にしてみても傾向は同じで、集団間学習をあまりしないプレーヤーの方が累積利得で有利になるようです。
学習速度についても同じように調べてみましたが、この場合も学習速度が遅いプレーヤーは学習速度が速いプレーヤーより一貫して損だという結果になりました。
要は協力を維持するのに有利な学習アルゴリズムは、そうでないアルゴリズムに比べて損だという結果になったわけで、協力の維持という観点からは芳しい結果ではありません。学習には情報収集などのコストがかかると仮定すると、学習速度が遅い方もそれなりに有利になりますが、集合間学習は多分一層不利になりますので、そういう仮定から協力の維持を導くことことも難しそうです。他に何か仕掛けを考える必要がありそうですね。
| 固定リンク
| コメント (1)
| トラックバック (0)
最近のコメント