- 週間ランキング
名古屋大学の研究チームは、この問題を解決するために 「Full-duplex(フルデュプレックス)音声対話技術」 に着目しました。
Full-duplexとは、相手の話を聞きながら同時に話すことができる技術で、人間の会話に近いリズムを実現します。
J-Moshiは、英語版の「Moshi」という既存のモデル(7Bパラメータ)をベースに開発され、大量の日本語音声データを学習することで、日本語特有の会話の流れや相づちを適切に処理できるようになりました。
さらにAIのリアルタイム処理能力を向上させ、発話がオーバーラップしても適切に対応できるように設計されています。
例えば、
従来のAIとの会話:
あなた:「昨日、新しいレストランに行ったんだけど…」
(数秒の沈黙)
AI:「どこのレストランですか?」
J-Moshiとの会話:
あなた:「昨日、新しいレストランに行ったんだけど…」
J-Moshi:「えっ、どこの?」(すかさず、相づちを入れる)
あなた:「あの近所のスーパーの隣にできたところで。すごく美味しくて…」
J-Moshi:「へぇ!どんな料理だった?」(自然なリアクション)
このようにJ-Moshiは 会話のテンポを崩さず、より人間らしい対話を実現します。
では、研究で行われた実際の会話を聴いてみましょう。
こちらのページでご視聴できます。
どうでしたか?あまりに滑らかで、どちらがAIでどちらが人間かもはや区別がつきませんね。
これまでの音声AIとの会話は「命令を伝えるツール」としての役割が強く、雑談にはあまり向いていませんでした。
しかしJ-Moshiの登場によって、AIと「自然におしゃべりする」未来が現実になりつつあります。
この技術が進化すれば、接客やカウンセリング、さらには一人暮らしの高齢者の話し相手など、幅広い分野での活用が期待されます。
「AIとの会話が楽しい」と感じる日が来るのも、そう遠くないかもしれません。
参考文献
相手の話を聞きながら話す、まるで人間のような対話 日本語で初のAI同時双方向対話モデル J-Moshiを開発
https://www.nagoya-u.ac.jp/researchinfo/result/2025/02/-ai-j-moshi.html
ライター
千野 真吾: 生物学出身のWebライター。普段は読書をするのが趣味で、休みの日には野鳥や動物の写真を撮っています。
編集者
ナゾロジー 編集部