HCPU_SHOGIの2枚落ちの強さを検証する
HCPU_SHOGIを公開したが、どの程度強いかについて定量的に計測を行っていなかった。
ここでは、2枚落ちについてどの程度強くなっているか検証を行う。
今回の検証では 駒落ち将棋を学習している Aoba駒落ち と対戦することで、どの程度強くなったかについて簡単な検証のみを行う。
「Aoba駒落ち」は、将棋の駒落ちを人間の知識なしでゼロから深層強化学習させるユーザ参加型の将棋人工知能プロジェクトです。
香落、角落、飛落、2枚落、4枚落、6枚落、平手、の7種類を同時に学習します。勝率が5割になるように下手(先手)の強さを自動調節しています。
対局設定
条件は以下の2通りの対局設定を200局行った。
Aoba駒落ち(下手) vs HCPU_SHOGI(上手)
パラメータ設定(主に差分を表示)
Aoba駒落ち(下手)
| Playout数 | 50 |
HCPU_SHOGI(上手)
| Playout数 | 10000 |
| DNN_Batch_Size | 16 |
HCPU_SHOGI(下手) vs aoba駒落ち(上手)
パラメータ設定(主に差分を表示)
HCPU_SHOGI(下手)
| Playout数 | 50 |
| black_expect_lossed_param | 500 |
| DNN_Batch_Size | 1 |
| PV_Mate_Search_Depth | 0 |
| Random_Ply | 0 |
| Random_Temperature | 0 |
Aoba駒落ち(上手)
| Playout数 | 10000 |
また、対局をばらけされるために 2枚落ち互角定跡を12手目まで用いる。
(互角定跡に関しては数・質が足りていないため、作り直したい。)
対局結果
Aoba駒落ち(下手) vs HCPU_SHOGI(上手)
対局数200 先手勝ち27(13%) 後手勝ち170(86%) 引き分け3
AobaK_26_GPU_w1250
勝ち27(13%) 先手勝ち27(13%) 後手勝ち0(0%)
HCPU_SHOGI_20230224
勝ち170(86%) 先手勝ち0(0%) 後手勝ち170(86%)
HCPU_SHOGI(上手)がR+311
HCPU_SHOGI(下手) vs aoba駒落ち(上手)
対局数200 先手勝ち168(85%) 後手勝ち28(14%) 引き分け4
HCPU_SHOGI
勝ち168(85%) 先手勝ち168(85%) 後手勝ち0(0%)
AobaK_26_GPU_w1250
勝ち28(14%) 先手勝ち0(0%) 後手勝ち28(14%)
HCPU_SHOGI(下手)がR+301
対局設定はaoba駒落ち側が同等もしくは有利になるように意識している。
しかし、HCPU_SHOGIの2枚落ちの上手、下手ともに大きく勝ち越す結果となった。
まとめ
HCPU_SHOGI の2枚落ちの強さを検証するため、aoba駒落ちと上手、下手を交換する検証方法を行い、aoba駒落ちに大きく勝ち越す結果となった。