強化学習モデルで囚人のジレンマゲームにおける人間の協力行動の説明ができる
[紹介論文] T. Ezaki, Y. Horita, M. Takezawa, and N. Masuda (2016) Reinforcement learning explains conditional cooperation and its moody cousin. PLOS Comput. Biol. 12, e1005034.
[論文URL] http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005034
この記事の見出し
はじめに
協力しないことが一見して合理的な状況(囚人のジレンマ)でもなぜ人々は協力することができるのはなぜでしょうか。進化ゲーム理論ではこうした行動を説明する様々なメカニズムを明らかにしてきました。進化ゲーム理論とは「よりうまくいっている戦略(行動原理)」が淘汰されて生き残る、という考え方です。もう少し詳しく言うと、うまくいっている人(囚人のジレンマゲームで言えば、高得点をとっている人)の行動を周りの人が真似しよう、ということでその行動をとる人が増える。そうして生き残った行動が、今我々の身の回りで見られている、という考え方です。
ネットワーク上における協力
膨大な理論研究により、ネットワーク(例えば友人のネットワークやSNSでのつながりなどを想定してください)があることが、協力を促進する要因になっている、ということが言われてきました。しかし、実際に実験室で被験者にゲームを行わせるとネットワークの効果は見られないということが明らかになってきました(実際には特定の条件を満たせばネットワークの効果が出るということもわかってきています)。さらに、被験者たちは「自分の周りの人たちが前回沢山協力してくれたら、次回自分も協力する」という条件付き協力と呼ばれる行動をとっていることも明らかになってきました。この行動はさらに細かく見ると、「前回自分が協力した場合は、周りの協力度合いが高いときにもっと協力する」が「前回自分が裏切った場合、周りの協力度合いが高いときにもっと裏切る」という自分の「ムード」に応じて条件づけを変えていたのです。こうした条件付き協力行動は進化ゲーム理論では説明が難しいとされてきました。
本研究で示したこと
本研究では、進化ゲーム理論ではなく、強化学習という行動原理を仮定すると上記のようないままで理論的に説明ができていなかった現象をよく説明できることを示しました。今回使用した強化学習(Bush-Mosteller Model)は他人を真似するのではなくて、自分の前回の行動とその結果を参照して、それが良いと思えば(=利得が基準と比較して十分高ければ)同じ行動を続け、そうでなければ違う行動を試す、という行動ルールのことです。これにより、人間の囚人のジレンマ環境における行動が強化学習として解釈できました。またモデルのパラメータから、自分が裏切ったときに相手から裏切られるという状況は許容して同じ行動を続けるが、自分が協力しているときに裏切られるのは許さずに行動を変える、というGRIM戦略として知られる戦略が実際の人間の行動をよく表していることが分かりました。