山本一成人工知能はどのようにして「名人」を超えたのか (2017)

2018.5.18

　著者の山本一成さんは、プロの将棋棋士に初めて勝利した将棋ソフト ポナンザ の作者で、この本が初の著作だそうです。

　将棋ソフトは、2005年頃、保木さんが、ボナンザというソフトを開発して、強くなりました。

保木さんが、ボナンザのソースコードを公開したことから、山本さんのポナンザをはじめとする多くのソフトが、

さらに、強さを競い、さらに強くなりました。

　第１章は、将棋の機械学習 と題されていて、65頁には、

　ポナンザは機械学習の導入以後、驚くほど強くなります。　と、書かれています。

　ここでいう機械学習は、囲碁ソフトを強力にした、ディープラーニングのことではありません。

　機械学習は、保木さんのボナンザでも、大いに活躍しました。

　コンピュータは、多数の手を先読みすることができます。しかし、先読みしただけでは、その中で、どの手を選ぶべきかわかりません。

先読みした局面の評価を行い、その評価に基づいて、選択することが、不可欠です。

保木さんは、局面の評価に、画期的な方法を考案しました。

　玉を含む、３つの駒を考えます。例えば、玉と、自分の金と、相手の角です。

この３つの駒が、過去のプロ棋士の棋譜の中で、どういう位置関係にあったかを学習します。

玉が、相手の角道にあるケースは、過去の棋譜に多数見られ、高い評価点が与えられると思います。

この評価法を考案したことにより、先読みした局面の評価の精度が上がり、将棋ソフトは、強くなりました。

　この本の巻末に、2016年の山本、加藤、大橋の３者の対談が収録されています。そこでの山本さんの発言を少し引用します。

で、将棋は｢機械学習｣という手法でかなり強くなりました。

まず、玉(王様)を含む３駒の関係で、将棋というものを効率よく表すことができることが発見された。

つまり、王様のちかくに味方の金がいたら高く評価するなど、３駒関係の組み合わせで盤面を表現することができる。

うまく将棋というものの特徴を見つけることができたんですね。

そうしたら、あとは計算するだけです。

１局面あたりの３駒関係って、だいたい1600個程度なんですよ。

プロの棋譜をたくさん読み込ませて、どういう手がいい手なのかを教えていった。

この手はいい、この手は悪いという評価をする「評価関数」を、人間が手動でプログラムで書くのではなく、

棋譜から自動生成するようにしたのが2005年に登場した将棋プログラム Bonanza の画期的な部分でした。

それ以降の将棋プログラムは、ほぼみんなボナンザメソッドを使っていました。

今はもうこの段階を越えて、コンピュータ同士を対戦させて、つまりコンピュータが自分で作った局面から学ぶようになってますけどね。

これはいわゆる｢強化学習｣と呼ばれるもので、アルファ碁も同じことをしています。

そして、2006年くらいから機械学習の分野で、｢ディープラーニング｣というものが出てきました。

簡単に言うと、アルファ碁はこのディープラーニングと、強化学習を組み合わせて強くなりました。

(大橋) 将棋はディープラーニングをやっても、あまりうまくいかなかったという話を聞いたことがあるよ。

将棋はすでにほかの方法で強くなっているから、わざわざディープラーニングをやらなくていいと思う。

[注：将棋でディープラーニングに成功した今から見ると、まだディープラーニングの力を甘く見ていますね。]

　将棋でもディープラーニングが成功した内容については、把握していませんので、また調べてみます。

　第３章は、囲碁と強化学習 と題されていますが、将棋ソフトも、強化学習で強くなりました。

124頁から、少し引用します。

　強化学習の導入によって、ポナンザはどのように変わったでしょうか。

　将棋における｢評価｣とは、指し手を進めていったときに、局面がよくなるのか悪くなるのかを予言するようなものでした。

2014年以前のポナンザは、プロ棋士が実際に差した手をお手本として教師あり学習をし、その評価の精度を向上させていたのです。

　強化学習の導入以後は、そうしたお手本を使わず、実際にありえそうな局面を６手～８手進めてみて、

その結果がよかったのか悪かったのか (実際に勝利につながったのか) を調べ、その結果が

「事前の評価よりもよかった」もしくは「事前の評価よりも悪かった」という情報をフィードバックして、評価の部分を微調整するのです。

　実際には、この結果を80億局面ほど集めることで、ポナンザは以前より少しだけ、未来を予言する力が強くなります。

そしてそのバージョンアップしたポナンザを使って、さらに同じ操作をしていきます。

そうした作業の積み重ねで、ポナンザは今迄およそ１兆程度の局面を調べているはずです。

　ポナンザの場合は、合計で300コアになるマシン数台を何か月も動かし続けて、少しずつ少しずつ強くしていきました。

このやり方ですと、電気代も毎月、数十万円以上かかります。

　強化学習を繰り返した結果、私が予想もしていなかったことが起こりました。

　ポナンザは単に強くなっただけでなく、どんどん新戦法を指すようになったのです。

人間同士の戦いではありえないとされていた手順が、次々と湧き出てきました。

　コンピュータ将棋の世界に入って本当によかった、と思った瞬間でした。

　将棋界では、ポナンザ流という新手法が研究されて、体系化されていったようです。

ホームページアドレス: http://www.geocities.jp/think_leisurely/

自分のホームページを作成しようと思っていますか？

Yahoo!ジオシティーズに参加

山本一成 人工知能はどのようにして「名人」を超えたのか (2017)

山本一成人工知能はどのようにして「名人」を超えたのか (2017)