Wiki RAGデータセットを作成する手法は、日本語Wikipediaから特定の段落を抽出し、その段落に基づく質問を生成し、[段落、 質問、 正解] の3つ組を作成することです。このデータは、専門家の手によって再度確認、修正を行うことで、高品質のRAGベンチマークになります。 また、東京大学入学試験の国語科目データセット評価では、東京大学入学試験※2 における国語大学科目問題の前提テキスト(段落)とその設問をRAGの入力とし、LLMがその段落と設問から生成した回答を専門家が評価しました。 評価結果では、Wikipedia RAGデータセットでは、「LHTM-OPT2」が、GPT-4oと同等レベルの精度(LHTM-OPT2:91.0%、GPT-4o:90.8%)を達成しました。また、東大入試国語科目におけるRAGに関する質問では、「LHTM-OPT2」が、GPT-4oの94%の精度を達成しました。
さらに、RAG評価においては、国内の全ての軽量型LLM(パラメータ数が10B以下のLLM)を上回る高い精度を達成し、「JGLUE(Japanese General Language Understanding Evaluation)」ベンチマークや「Japanese MT-Bench(MTベンチ)※3」でも、軽量型LLMとしての最高スコアを記録しました。 推論速度に関しては、SambaNova社の協力を得て、日本語推論において平均速度500TPS(トークン/秒)、最大速度796TPSを確認しました。この速度は、日本語LLM推論速度の最高記録※4 です。