
Image by Matheus Bertelli, from Pexels
DeepSeekのAIが自己思考を学ぶ
中国のスタートアップ、DeepSeekは、清華大学とのパートナーシップのもと、巨大なコンピューターや高価なリソースを必要とせず、人工知能モデルがより良く、より速く考えるのを助けるためのよりスマートな方法を開発したと発表しています。
急いでいる方のための要点をまとめてみましょう:
- DeepSeekは、Self-Principled Critique Tuning(SPCT)を使用して自己改善型のAIを作成しました。
- SPCTは、AIに自身で生成したルールを用いて自分の業績を評価することを教えます。
- この方法は、大量の計算能力なしでパフォーマンスを向上させます。
この革新的な成果は、Self-Principled Critique Tuning(SPCT)という新しい手法から生まれました。SPCTは、AIモデルを単純に大きくすることでパフォーマンスを向上させる方法とは異なり、大量のエネルギーや計算力を必要とせずに、AI自身が自分で作成したルールセットを用いて自己評価を行うよう教えることが可能です。
その仕組みは、AIの応答が内部の推論ルールに従い、かつ人間の出力に適していることを確認する「判断者」を内蔵していることによります。AIが適切な応答を提供すると、それが肯定的なフィードバックを受け取り、これが将来的な同様の質問に対する回答能力を向上させるのに役立ちます。
DeepSeekはこの方法をDeepSeek-GRMシステムの一部として実装しています。GRMはGenerative Reward Modelingの略で、伝統的な方法とは異なり、精度と一貫性の両方を向上させるために並行チェックを行います。
「我々は、スケーラブルな報酬生成行動を促進するために、Self-Principled Critique Tuning(SPCT)を提案します」と、研究者たちは論文で述べています。「SPCTは、[the model]が入力クエリとレスポンスに基づいて原則と批判を適応的に提出することを可能にし、結果的により良い結果報酬を生み出します。」
このシステムを使用することで、DeepSeekは、そのAIが競争相手よりも優れたパフォーマンスを発揮できると主張しています。これには、GoogleのGemini、MetaのLlama、OpenAIのGPT-4oなどが含まれ、特に複雑なタスク、例えば推論や意思決定などにおいて優れています。これはEuronewsが指摘しています。
重要なことに、DeepSeekはこれらの新しいツールをオープンソースソフトウェアとしてリリースする予定であると発表しましたが、リリース日はまだ公表されていません。
コメントする
キャンセル