【強化学習】自作ゲームにSACを適用してみた(DDPGとの比較)

こんにちは、ヒガシです。

 

このページでは、以前作成した自作ゲームに、深層強化学習アルゴリズムであるSAC(Soft-Actor-Critic)を適用してみます。

 

同じゲームに別の深層強化学習アルゴリズムであるDDPGも適用していますので(その時の記事はここから)、どちらの方が優秀な成績を収められるかを比較してみようと思います。

 

スポンサーリンク

SAC(Soft-Actor-Critic)の概要

SACの概要であったり今回比較するDDPGとの違いは以下のサイトで詳細に解説されておりますので、まずはこちらをご覧ください。

第8回 今更だけど基礎から強化学習を勉強する SAC編(連続行動空間) - Qiita
今回はSACを実装してみました。 方策を学習する手法はいったんこれが最後になると思います。 第7回 DDPG/TD3編 第9回 遺伝的アルゴリズム編(閑話) ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性があ...

 

※プログラムも上記サイトからほぼ流用させていただきましたので今回はプログラム紹介もいたしません。

 

スポンサーリンク

自作したゲームの概要

今回強化学習を適用するゲームは以下のようなものです。

クリックした方向に〇が進んでいくというシンプルなものです。

(上の動画は私が自分で操作したときの結果で人間であればなんの問題もなくクリアすることが可能です。)

 

スポンサーリンク

自作ゲームにDDPGを適用したときの結果

それではまずはDDPGを適用したときの結果をご紹介しましょう。

詳細は以下の記事をご確認ください。

【AI】自作ゲームに深層強化学習(DDPG)を適用してみた。

 

結果は以下の通りです。

学習回数もかなり稼ぎ、ハイパーパラメータも何度か調整してみましたが、このように1周することができませんでした。

 

スポンサーリンク

自作ゲームにSACを適用した結果

それでは今回の本題であるSACを適用した時の結果をご紹介します。

 

結果は以下の通りです。

完璧っすね。笑

(永久に走れてしまうため、距離が5000に到達したらゲームオーバーにしています。)

 

しかも今回の結果はDDPGよりも学習時の試行回数も少なくハイパーパラメータ調整もほぼ行っていません。(まぁそもそもSACは調整するものがあまりありませんので)

 

スポンサーリンク

おわりに

というわけで今回は自作ゲームに深層強化学習アルゴリズムであるSACとDDPGを適用し、両者の性能を比較してみました。

 

すでにいろいろなサイトで検証されていることの再現にはなりましたが、やはりSACの方が性能は良さそうですね。

 

このように、私のブログでは様々なスキルを紹介しています。

過去記事一覧

 

今は仕事中で時間がないかもしれませんが、ぜひ通勤時間中などに他の記事も読んでいただけると嬉しいです。
⇒興味をもった方は【ヒガサラ】で検索してみてください。

確実にスキルアップできるはずです。

 

最後に、この記事が役に立ったという方は、ぜひ応援よろしくお願いします。
↓ 応援ボタン
にほんブログ村 IT技術ブログへ
にほんブログ村

それではまた!

コメント

タイトルとURLをコピーしました