![](https://www.higashisalary.com/wp-content/uploads/2021/04/siruetto-1.jpg)
こんにちは、ヒガシです。
このページでは、以前作成した自作ゲームに、深層強化学習アルゴリズムであるSAC(Soft-Actor-Critic)を適用してみます。
同じゲームに別の深層強化学習アルゴリズムであるDDPGも適用していますので(その時の記事はここから)、どちらの方が優秀な成績を収められるかを比較してみようと思います。
SAC(Soft-Actor-Critic)の概要
SACの概要であったり今回比較するDDPGとの違いは以下のサイトで詳細に解説されておりますので、まずはこちらをご覧ください。
![](https://qiita-user-contents.imgix.net/https%3A%2F%2Fcdn.qiita.com%2Fassets%2Fpublic%2Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png?ixlib=rb-4.0.0&w=1200&mark64=aHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU3JUFDJUFDOCVFNSU5QiU5RSUyMCVFNCVCQiU4QSVFNiU5QiVCNCVFMyU4MSVBMCVFMyU4MSU5MSVFMyU4MSVBOSVFNSU5RiVCQSVFNyVBNCU4RSVFMyU4MSU4QiVFMyU4MiU4OSVFNSVCQyVCNyVFNSU4QyU5NiVFNSVBRCVBNiVFNyVCRiU5MiVFMyU4MiU5MiVFNSU4QiU4OSVFNSVCQyVCNyVFMyU4MSU5OSVFMyU4MiU4QiUyMFNBQyVFNyVCNyVBOCUyOCVFOSU4MCVBMyVFNyVCNiU5QSVFOCVBMSU4QyVFNSU4QiU5NSVFNyVBOSVCQSVFOSU5NiU5MyUyOSZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnM9YjI1MWMzZDA3MWFiMWYzY2EwNzFkMTE1MzVmZDg5YTQ&mark-x=142&mark-y=57&blend64=aHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBwb2Nva2hjJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz04MjhjNzMzZTZkZDU0ZWZmOGE3MmM3NjRjMmFiMDQ0ZA&blend-x=142&blend-y=486&blend-mode=normal&s=937352a508b612bec595bf2b588e6236)
※プログラムも上記サイトからほぼ流用させていただきましたので今回はプログラム紹介もいたしません。
自作したゲームの概要
今回強化学習を適用するゲームは以下のようなものです。
クリックした方向に〇が進んでいくというシンプルなものです。
(上の動画は私が自分で操作したときの結果で人間であればなんの問題もなくクリアすることが可能です。)
自作ゲームにDDPGを適用したときの結果
それではまずはDDPGを適用したときの結果をご紹介しましょう。
詳細は以下の記事をご確認ください。
【AI】自作ゲームに深層強化学習(DDPG)を適用してみた。
結果は以下の通りです。
学習回数もかなり稼ぎ、ハイパーパラメータも何度か調整してみましたが、このように1周することができませんでした。
自作ゲームにSACを適用した結果
それでは今回の本題であるSACを適用した時の結果をご紹介します。
結果は以下の通りです。
完璧っすね。笑
(永久に走れてしまうため、距離が5000に到達したらゲームオーバーにしています。)
しかも今回の結果はDDPGよりも学習時の試行回数も少なくハイパーパラメータ調整もほぼ行っていません。(まぁそもそもSACは調整するものがあまりありませんので)
おわりに
というわけで今回は自作ゲームに深層強化学習アルゴリズムであるSACとDDPGを適用し、両者の性能を比較してみました。
すでにいろいろなサイトで検証されていることの再現にはなりましたが、やはりSACの方が性能は良さそうですね。
このように、私のブログでは様々なスキルを紹介しています。
今は仕事中で時間がないかもしれませんが、ぜひ通勤時間中などに他の記事も読んでいただけると嬉しいです。
⇒興味をもった方は【ヒガサラ】で検索してみてください。
確実にスキルアップできるはずです。
最後に、この記事が役に立ったという方は、ぜひ応援よろしくお願いします。
↓ 応援ボタン
にほんブログ村
それではまた!
Follow @HigashiSalary
コメント