・概要:検証可能な事実に対する正確性と、モデルが主張を証拠または一貫した推論で裏付ける傾向。 ・理由:これは信頼の最低基準です。最低基準が崩れれば、どんなに魅力的な手法も経験を救うことはできません。 ・GPT-5 vs GPT-4o:GPT-5は幻覚率が低く、ロングコンテキストグラウンディングの精度が高いため、ベースラインの能力を高めており、優位に立っています。GPT-4oは強力ですが、曖昧な状況下では「自信に満ちた誇張」が比較的発生しやすい傾向があります。
HealthBench is a Critical Benchmark (in Healthcare) While Examining a Model’s Hallucination Rate
・概要:キャリブレーションとは、モデルの出力に対する信頼度が、実際の正確性とどの程度一致しているかを指します。適切にキャリブレーションされたモデルは、「自分が何を知っているか」を認識しているだけでなく、同様に重要な点として、自分が何を知らないかも認識しています。 ・なぜ重要なのか:過信は、時折の棄権よりも早く信頼を失わせます。 ・GPT-5 vs GPT-4o:GPT-5は事実性、正確性、そして長期的なコンテキストの信頼性を重視して設計されているため、キャリブレーションの重要なシグナルとして、信頼度と正確性の整合性が向上します。また、GPT-5は、より頻繁に棄権したり、確信が持てない場合でも制約付き推論を提供したりします(OpenAIシステムの内部動作とユーザーからのフィードバックから確認)。これは、より厳密なキャリブレーションを示しています。
3) 一貫性:接続性
・一貫性とは:同じデフォルトのスタイルとトーンで回答を提供することです。 ・なぜ重要なのか:ユーザーは、再現性と一貫性から信頼を築きます。 ・GPT-5 vs GPT-4o:GPT-4oが優れています。GPT-5は単一のモノリシックモデルではなく、ルーター駆動型の統合システムです。舞台裏では、軽量ルーターが各ユーザープロンプトを評価し、複雑さとコンテキストに基づいて複数のサブモデルのいずれかに動的にルーティングします。このアーキテクチャは柔軟性と効率性を提供しますが、同時に根本的なトレードオフも生じます。つまり、常に同じGPT-5と対話しているわけではないということです。
・意味:ニュアンス、トーン、ユーモア、共感、そして「見られている」という感覚。 ・理由:モデルが精度の基準をクリアすると、親近感がスティッキネスとユーザーの信頼感を高めます。 ・GPT-5 vs GPT-4o:GPT-4oがリードしています。ユーザーは、単に回答されたという感覚ではなく、導かれているという感覚を報告しており、これがAIへの愛着を高めています(そして、それがどの程度健全であるかは別の議論のテーマです)。対照的に、GPT-5は論理と推論の能力においては明らかに優れていますが、特にチャットボットとしての日常的なやり取りにおいては、より形式的で距離を置いている印象を与える傾向があり、情緒的信頼の構築には適していません。
5) パーソナライゼーションと記憶:つながり
・意味:好みやドメインのコンテキストの保持。理解の継続性と目標の進化。 ・理由:継続性は、ツールを「パートナー」または「友人」に変えます。 ・GPT-5 vs GPT-4o:GPT-5は未来のツールかもしれないが、その移行は複雑だった。優れた機能によって長期的な勝者となる可能性もある一方で、導入によってより脆弱なもの、つまり継続性が損なわれた。多くのGPT-4oユーザーは、GPT-5に置き換えられた際に、チャット履歴、コンテキストメモリ、そして好みのパーソナライズされたレスポンスの一部が失われたと報告している。これは、時間をかけて蓄積されてきた共有コンテキストの一部を実質的に消去したことになる。この喪失は、機能性を損なうだけでなく、信頼関係も損なう。