プロセス制御における新型強化学習の強み : 日立ハイテク

AI制御が製造業を変える

#04

プロセス制御における新型強化学習の強み

by RL-Prophet^®

今回はAI制御システム「RL-Prophet^®」が搭載している、日立開発の新型強化学習技術についてご紹介します。この技術により、これまでの制御ではできなかったことが実現しています。

日立ハイテクソリューションズ
バリュークリエーション事業ユニット　
バリュークリエーショングループ

下川敦也

INDEX

従来はできなかった「先行的なリアルタイム制御」とは。
目標値に向かう最適な遷移を計算し、細かく更新。
学習モデル構築時も実制御時も確かな安全性を担保。
運転員の手動介入の負荷低減から生産性向上へ。

従来はできなかった「先行的なリアルタイム制御」とは。

AI制御システム「RL-Prophet^®」が実現する制御を、私たちは「先行的なリアルタイム制御」と呼んでいます。

PID制御では、一般的にはある程度大きくなった「目標値と計測値の偏差」を検知してから補正動作をかけるため、応答遅れ※1が大きいプロセスでは、制御動作がプロセスの変動にリアルタイムで追従できない場合があります。時刻tに検知した偏差を抑制するためにおこなった動作が効果を発揮するのは時刻t+nとなり、その瞬間には既にプロセスの状態が大きく変わって、n秒前におこなった操作がむしろ悪影響を与える。そんな状況に陥ることさえあるわけです。

AI制御システム「RL-Prophet^®」では、偏差に依存した制御ではなく、毎制御周期における制御対象プロセスの状態に応じて、目標値に到達するために効率的な状態遷移ルートを計算し、制御をおこないます。この演算の際に、将来予測が織り込まれるために、制御動作に「先行性」をもたせることが可能となります。これにより、動作の遅れやその結果としてのオーバーシュート※2等を回避することが期待できます。

目標値に向かう最適な遷移を計算し、細かく更新。

PID制御を含むフィードバック制御は、降雨や降雪による外気温の変化など、外乱への対応が難しいとされます。その理由は、目標値との偏差を検知してから補正動作をかけるという性質から、理論上、外乱が発生するたびに被制御量が振動してしまうことになります。

これに対し、AI制御システム「RL-Prophet^®」では、制御演算は目標値との偏差に依存せず、毎制御周期で目標値への収束に対して効率的な状態遷移を計算し、内部目標値を細かく更新します。制御周期が１秒だとすれば、目標値に向かうために、次はどこに進むか、ルートを１秒ごとに考えるということです。そのため、外乱が発生した際も偏差の発生には関係なく、効果的な制御演算をおこなうことができます。

また、既存の制御で運転していた過去のデータを「RL-Prophet^®」に与えて学習モデルを構築しているので、学習データの中にすでに外乱の影響が含まれているとも言えます。

図1 RL-Prophet^®制御の動作イメージ

学習モデル構築時も実制御時も確かな安全性を担保。

AI制御システム「RL-Prophet^®」では、学習モデル構築時と、実制御時の二つの観点において、安全性を担保しています。

まず学習モデル構築時です。一般的な強化学習では実際のエージェントの行動に対する環境からの応答を観測して行動の良し悪しを判断し、学習を進めます。これをプラントの操業に当てはめた場合、さまざまな制御動作を試行錯誤的に試験して、制御対象の応答を観測するということになりますので、安全性の観点で非常にリスクが高いです。実際のプラントを模したプラントシミュレーターを用いて仮想的に学習させる方法もありますが、高精度なプラントシミュレーターの構築は一般的に難度が高く、またコストもかかります。「RL-Prophet^®」では、新型強化学習技術を搭載したことで、過去の運転データを用いた数学的な処理により、準最適なモデルをつくります。このため、学習モデル構築時で試行錯誤的な工程を必要とせず、制御対象に対して悪影響を与えることなく安全に学習モデル構築が可能です。実制御をしてから、もしまだ経験していないデータがプラントから返ってくれば、追加で学習して、学習モデルを強化していきます。

次に実制御時です。プラントのプロセス制御においては、設備の修繕や周辺設備の設定値変更など、制御対象の状態が流動的に変化していくことが通常であると想定されます。こういった点で、学習モデルに基づくAI制御では、現在の制御対象の状態が学習済みの状態であるか否かを常時判定し、学習済みの状態である時のみAI制御を実行し、学習済みの状態にないときは既存制御に運転を任せるといった対応が、安全保護の観点で必要であると考えられます。「RL-Prophet^®」では、上記のような安全保護を「未学習判定機能」という仕掛けにより実現しています。

また「RL-Prophet^®」サーバの強制終了や、DCSとの通信遮断など、予期せぬ異常が発生した際も、それを検知し、既存制御に切り替えるといったフェールセーフ※3を設けています。

運転員の手動介入の負荷低減から生産性向上へ。

実プラントでは、自動化をしても、外乱への対応などの理由で自動制御を中断し、熟練運転員が自ら設定値や出力値を変更しなければいけない、または自動制御の出力値に対し加減算等の調整を行わなければならないなどといった場面が発生しています。
AI 制御「RL-Prophet^®」の導入によっても、こういった運転員の手動介入を全てのプロセスにおいて完全に排除することは難しいと考えますが、この課題を改善し、人的負荷の低減を図ることは「RL-Prophet^®」のテーマの一つです。さらに、すでにPID制御※4などの仕組みをもちいて自動化に成功しているプラントにおいても、状態変化により柔軟かつ迅速に対応可能な「RL-Prophet^®」を取り入れることで、品質や収率を向上し、売上拡大に貢献できると考えています。今後も「RL-Prophet^®」を用いたプラント操業の高度化を通してお客さま価値向上に寄与し、協創事例を拡充していきます。

※1 応答遅れ：おこなった操作が実際に被制御量の値変動として表れるまでの時間
※2 オーバーシュート：目標値に到達後、現在値が目標値を超えて行き過ぎること
※3 フェールセーフ：装置の異常時や故障時に安全な状態に移行する仕組みのこと
※4 PID制御：制御対象の目標値と現在値の偏差に基づき制御をおこなう制御手法。Proportional（比例）・Integral（積分）・Derivative（微分）の3つのパラメーターを調整することで数式を完成させ、操作量(現在値を目標値に近づけるための操作値)の計算をおこなう。
ご参考記事：「「PID制御」と「AI制御」の違いとは？」

LIBRARY