自分で何度も”推敲”して完成度を上げるAIが発表!新しいフレームワーク「Self-Refine」とは?

自然言語処理の分野において、大規模言語モデル(LLM)による反復的な改良と自己評価を活用する新しいフレームワークが提案されました。

米カーネギーメロン大学、Allen Institute for Artificial Intelligence、米ワシントン大学、米NVIDIA、米UC San Diego、米Google Researchに所属する研究者らが発表した「Self-Refine: Iterative Refinement with Self-Feedback」という論文によるものです。

このフレームワークは、草案を作成し、自己フィードバックによって改良する人間の問題解決の基本的な特徴を再現することができます。教師ありの訓練データや強化学習を必要とせず、単一のLLMを使用する点が特徴的です。

Self-Reifineとは?

Self-Refineは、FeedbackとRefineの2つのコンポーネントによる反復ループで構成されており、これらのコンポーネントが連携して高品質なアウトプットを生成します。初期出力を与えると、Feedbackはそれを評価し、修正に必要な実行可能なフィードバックを生成します。そして、Refineはそのフィードバックを考慮してアウトプットを改良します。これらの過程を何度も繰り返し、モデル自身がこれ以上の改良は必要ないと判断するまで行います。

Self-Refineの有効性を検証するために、物語生成やコードの最適化、略語生成など7つのタスクで大規模なテストが実施されました。その結果、Self-RefineはGPT-3.5やGPT-4などの強力な生成器からの直接生成よりも、少なくとも5%から最大で40%以上向上することが示されています。

Self-Reifineの今後の展望

Self-Refineは、自己評価と反復的な改良を利用することで、LLMの出力の質を飛躍的に向上させる可能性がある画期的な技術です。これによって、より高品質な文章やコードの生成が可能になるだけでなく、人間の認知プロセスを再現することで、LLMの説明性を向上させることも期待できます。

出典:https://www.itmedia.co.jp/news/articles/2304/18/news033.html