山本一成 人工知能はどのようにして「名人」を超えたのか (2017) 

2018.5.18

 著者の山本一成さんは、プロの将棋棋士に初めて勝利した将棋ソフト ポナンザ の作者で、この本が初の著作だそうです。

 将棋ソフトは、2005年頃、保木さんが、ボナンザというソフトを開発して、強くなりました。

保木さんが、ボナンザのソースコードを公開したことから、山本さんのポナンザをはじめとする多くのソフトが、

さらに、強さを競い、さらに強くなりました。

 

 第1章は、将棋の機械学習 と題されていて、65頁には、

 ポナンザは機械学習の導入以後、驚くほど強くなります。 と、書かれています。

 ここでいう機械学習は、囲碁ソフトを強力にした、ディープラーニングのことではありません。

 

 機械学習は、保木さんのボナンザでも、大いに活躍しました。

 コンピュータは、多数の手を先読みすることができます。しかし、先読みしただけでは、その中で、どの手を選ぶべきかわかりません。

先読みした局面の評価を行い、その評価に基づいて、選択することが、不可欠です。

保木さんは、局面の評価に、画期的な方法を考案しました。

 玉を含む、3つの駒を考えます。例えば、玉と、自分の 金 と、相手の 角 です。

この3つの駒が、過去のプロ棋士の棋譜の中で、どういう位置関係にあったかを学習します。

玉が、相手の 角道にあるケースは、過去の棋譜に多数見られ、高い評価点が与えられると思います。

この評価法を考案したことにより、先読みした局面の評価の精度が上がり、将棋ソフトは、強くなりました。

 

 この本の巻末に、2016年の山本、加藤、大橋の3者の対談が収録されています。そこでの山本さんの発言を少し引用します。

 

で、将棋は「機械学習」という手法でかなり強くなりました。

まず、玉(王様)を含む3駒の関係で、将棋というものを効率よく表すことができることが発見された。

つまり、王様のちかくに味方の金がいたら高く評価するなど、3駒関係の組み合わせで盤面を表現することができる。

うまく将棋というものの特徴を見つけることができたんですね。

そうしたら、あとは計算するだけです。

1局面あたりの3駒関係って、だいたい1600個程度なんですよ。

  

プロの棋譜をたくさん読み込ませて、どういう手がいい手なのかを教えていった。

この手はいい、この手は悪いという評価をする「評価関数」を、人間が手動でプログラムで書くのではなく、

棋譜から自動生成するようにしたのが2005年に登場した将棋プログラム Bonanza の画期的な部分でした。

それ以降の将棋プログラムは、ほぼみんなボナンザメソッドを使っていました。

 

今はもうこの段階を越えて、コンピュータ同士を対戦させて、つまりコンピュータが自分で作った局面から学ぶようになってますけどね。

これはいわゆる「強化学習」と呼ばれるもので、アルファ碁も同じことをしています。

そして、2006年くらいから機械学習の分野で、「ディープラーニング」というものが出てきました。

簡単に言うと、アルファ碁はこのディープラーニングと、強化学習を組み合わせて強くなりました。

(大橋) 将棋はディープラーニングをやっても、あまりうまくいかなかったという話を聞いたことがあるよ。

将棋はすでにほかの方法で強くなっているから、わざわざディープラーニングをやらなくていいと思う。

[注:将棋でディープラーニングに成功した今から見ると、まだディープラーニングの力を甘く見ていますね。]

  

  将棋でもディープラーニングが成功した内容については、把握していませんので、また調べてみます。

 

 第3章は、囲碁と強化学習 と題されていますが、将棋ソフトも、強化学習で強くなりました

124頁から、少し引用します。

 強化学習の導入によって、ポナンザはどのように変わったでしょうか。

 将棋における「評価」とは、指し手を進めていったときに、局面がよくなるのか悪くなるのかを予言するようなものでした。

2014年以前のポナンザは、プロ棋士が実際に差した手をお手本として教師あり学習をし、その評価の精度を向上させていたのです。

 強化学習の導入以後は、そうしたお手本を使わず、実際にありえそうな局面を6手〜8手進めてみて、

その結果がよかったのか悪かったのか (実際に勝利につながったのか) を調べ、その結果が

「事前の評価よりもよかった」もしくは「事前の評価よりも悪かった」という情報をフィードバックして、評価の部分を微調整するのです。

 実際には、この結果を80億局面ほど集めることで、ポナンザは以前より少しだけ、未来を予言する力が強くなります。

そしてそのバージョンアップしたポナンザを使って、さらに同じ操作をしていきます。

そうした作業の積み重ねで、ポナンザは今迄およそ1兆程度の局面を調べているはずです。

 

 ポナンザの場合は、合計で300コアになるマシン数台を何か月も動かし続けて、少しずつ少しずつ強くしていきました。

このやり方ですと、電気代も毎月、数十万円以上かかります。

 

 強化学習を繰り返した結果、私が予想もしていなかったことが起こりました。

 ポナンザは単に強くなっただけでなく、どんどん新戦法を指すようになったのです。

人間同士の戦いではありえないとされていた手順が、次々と湧き出てきました。

 コンピュータ将棋の世界に入って本当によかった、と思った瞬間でした。

 

 将棋界では、ポナンザ流という新手法が研究されて、体系化されていったようです。

 

    

ホームページアドレス: http://www.geocities.jp/think_leisurely/

 


自分のホームページを作成しようと思っていますか?
Yahoo!ジオシティーズに参加