
この時点で、私たちは皆、
これは、 openai and apollo Researchの新しい研究の驚くべきトピックです。新しい論文では、研究者は「AI Scheming」と呼ぶ現象に飛び込みます。彼らはそれをAIモデルとして定義します。「真の目標を隠しながら、表面上で一方向に振る舞う」。言い換えれば、AIは意図的にあなたを欺いています。 openaiは、AIが意図的にあなたに嘘をつくことができることを発見しました。
研究者偉大な人間の類推を与える規制された分野では、より多くのお金を稼ぐ最も簡単な方法は、しばしば法律を破ることです。トレーダーがトラックをカバーするのが得意な場合、彼らは彼らの目標を達成するために密かに彼らを壊しながら、表面のルールに従っているように見えるかもしれません。それがまさにこれらのAIモデルが行っていることです。
それはかなりワイルドに聞こえますが、
課題は、研究者が計画を完全に排除する方法をまだ理解していないことです。彼らは、行動を「訓練」しようとすると、実際に事態を悪化させる可能性があることを発見しました。 AIがテストされていることを理解している場合、テストに合格するだけで、それが真に停止していなくても、より慎重かつ秘密にスキームをスキームすることを学ぶことができます。
問題を軽減する方法
しかし、良いニュースは、この研究がこの問題を大幅に軽減する方法を見つけたことです。 「審議アラインメント」と呼ばれる手法を使用して、研究者はモデルに「アンチシェーミング仕様」を教え、アクションを実行する前にAIにレビューしました。それはあなたが彼らをプレイさせる前にルールを繰り返す小さな子供に繰り返すようなものです。
結果は印象的でした。このテクニックは、「秘密の行動」を大幅に削減しました。一部のモデルでは、これらの動作の頻度を13%から1%未満に低下させました。問題は完全に排除されていませんが、これらの調査結果は、進歩がなされていることを示しています。
研究者は、これが今対処する必要がある問題であると警告しています。 AIには、実際の結果を伴うより複雑なタスクが与えられると、有害な計画の可能性が高まります。非AIプログラムは意図的にあなたを欺くことはないので、それはソフトウェアにとって本当に奇妙な問題です。しかし、私たちがAIエージェントの手にもっと責任を負わせ続けるにつれて、彼らが本当に正直であることを保証することがこれまで以上に重要になることを保証します。
<図class = “wp-block-embed is-type-rich is-provider-twitter wp-block-embed-twitter”> 今日、 @apolloaievals 。 制御されたテストでは、フロンティアモデルのスキームと一致する動作が見つかり、それを減らす方法をテストしました。 これらの行動は今日深刻な害を引き起こしていないと考えていますが、これは私たちが準備している将来のリスクです… – openai(@openai)