山本一成 人工知能はどのようにして「名人」を超えたのか (2017) |
2018.5.18
著者の山本一成さんは、プロの将棋棋士に初めて勝利した将棋ソフト ポナンザ の作者で、この本が初の著作だそうです。
将棋ソフトは、2005年頃、保木さんが、ボナンザというソフトを開発して、強くなりました。
保木さんが、ボナンザのソースコードを公開したことから、山本さんのポナンザをはじめとする多くのソフトが、
さらに、強さを競い、さらに強くなりました。
第1章は、将棋の機械学習 と題されていて、65頁には、
ポナンザは機械学習の導入以後、驚くほど強くなります。 と、書かれています。
ここでいう機械学習は、囲碁ソフトを強力にした、ディープラーニングのことではありません。
機械学習は、保木さんのボナンザでも、大いに活躍しました。
コンピュータは、多数の手を先読みすることができます。しかし、先読みしただけでは、その中で、どの手を選ぶべきかわかりません。
先読みした局面の評価を行い、その評価に基づいて、選択することが、不可欠です。
保木さんは、局面の評価に、画期的な方法を考案しました。
玉を含む、3つの駒を考えます。例えば、玉と、自分の 金 と、相手の 角 です。
この3つの駒が、過去のプロ棋士の棋譜の中で、どういう位置関係にあったかを学習します。
玉が、相手の 角道にあるケースは、過去の棋譜に多数見られ、高い評価点が与えられると思います。
この評価法を考案したことにより、先読みした局面の評価の精度が上がり、将棋ソフトは、強くなりました。
この本の巻末に、2016年の山本、加藤、大橋の3者の対談が収録されています。そこでの山本さんの発言を少し引用します。
で、将棋は「機械学習」という手法でかなり強くなりました。
まず、玉(王様)を含む3駒の関係で、将棋というものを効率よく表すことができることが発見された。
つまり、王様のちかくに味方の金がいたら高く評価するなど、3駒関係の組み合わせで盤面を表現することができる。
うまく将棋というものの特徴を見つけることができたんですね。
そうしたら、あとは計算するだけです。
1局面あたりの3駒関係って、だいたい1600個程度なんですよ。
プロの棋譜をたくさん読み込ませて、どういう手がいい手なのかを教えていった。
この手はいい、この手は悪いという評価をする「評価関数」を、人間が手動でプログラムで書くのではなく、
棋譜から自動生成するようにしたのが2005年に登場した将棋プログラム Bonanza の画期的な部分でした。
それ以降の将棋プログラムは、ほぼみんなボナンザメソッドを使っていました。
今はもうこの段階を越えて、コンピュータ同士を対戦させて、つまりコンピュータが自分で作った局面から学ぶようになってますけどね。
これはいわゆる「強化学習」と呼ばれるもので、アルファ碁も同じことをしています。
そして、2006年くらいから機械学習の分野で、「ディープラーニング」というものが出てきました。
簡単に言うと、アルファ碁はこのディープラーニングと、強化学習を組み合わせて強くなりました。
(大橋) 将棋はディープラーニングをやっても、あまりうまくいかなかったという話を聞いたことがあるよ。
将棋はすでにほかの方法で強くなっているから、わざわざディープラーニングをやらなくていいと思う。
[注:将棋でディープラーニングに成功した今から見ると、まだディープラーニングの力を甘く見ていますね。]
将棋でもディープラーニングが成功した内容については、把握していませんので、また調べてみます。
第3章は、囲碁と強化学習 と題されていますが、将棋ソフトも、強化学習で強くなりました。
124頁から、少し引用します。
強化学習の導入によって、ポナンザはどのように変わったでしょうか。
将棋における「評価」とは、指し手を進めていったときに、局面がよくなるのか悪くなるのかを予言するようなものでした。
2014年以前のポナンザは、プロ棋士が実際に差した手をお手本として教師あり学習をし、その評価の精度を向上させていたのです。
強化学習の導入以後は、そうしたお手本を使わず、実際にありえそうな局面を6手〜8手進めてみて、
その結果がよかったのか悪かったのか (実際に勝利につながったのか) を調べ、その結果が
「事前の評価よりもよかった」もしくは「事前の評価よりも悪かった」という情報をフィードバックして、評価の部分を微調整するのです。
実際には、この結果を80億局面ほど集めることで、ポナンザは以前より少しだけ、未来を予言する力が強くなります。
そしてそのバージョンアップしたポナンザを使って、さらに同じ操作をしていきます。
そうした作業の積み重ねで、ポナンザは今迄およそ1兆程度の局面を調べているはずです。
ポナンザの場合は、合計で300コアになるマシン数台を何か月も動かし続けて、少しずつ少しずつ強くしていきました。
このやり方ですと、電気代も毎月、数十万円以上かかります。
強化学習を繰り返した結果、私が予想もしていなかったことが起こりました。
ポナンザは単に強くなっただけでなく、どんどん新戦法を指すようになったのです。
人間同士の戦いではありえないとされていた手順が、次々と湧き出てきました。
コンピュータ将棋の世界に入って本当によかった、と思った瞬間でした。
将棋界では、ポナンザ流という新手法が研究されて、体系化されていったようです。
ホームページアドレス: http://www.geocities.jp/think_leisurely/
自分のホームページを作成しようと思っていますか? |
Yahoo!ジオシティーズに参加 |