AIとチャットできる技術が浸透してきましたが、そのほとんどは文章でのやり取りが一般的です。
しかし名古屋大学の研究チームはこのほど、まるで人間のようにスムーズな音声会話を実現する通話型AI「J-Moshi」の開発に成功したと発表しました。
AI音声アシスタントはこれまでにも存在していますが、それらは相手の発話が終わるのを待ってから応答するのが普通です。
一方で、私たちの普段の会話は、お互いの話が少し重なったり、相づちを入れたりしながら同時進行するものですよね。
J-Moshiはこうした自然な会話のやり取りを完全再現し、より流暢なコミュニケーションを可能にしたのです。
その驚きの会話の様子をぜひお聞きください。
研究の詳細は2025年3月10日〜14日に開催される「言語処理学会第31回年次大会(NLP2025)」において発表されます。
目次
- 自然な音声会話ができるAIを開発!
自然な音声会話ができるAIを開発!
音声アシスタントやAIチャットボットは、私たちの生活にすっかり溶け込んでいます。
スマートフォンの音声アシスタントやカスタマーサポートのAIなど、さまざまな場面で利用されています。
しかし音声AIアシスタントを使った方ならわかるように、「会話のテンポが合わないな」とか「一方的に話しかけてる感じがする」と思うことが多いでしょう。
これは従来のAIが 「ターン制」 で会話を進めるためです。
要するに、人が話し終えるまで待ち、その後にAIが応答するという方式です。ポケモンのバトルと同じですね。
一見、理にかなっているように見えますが、私たちの日常的な会話では相づちやオーバーラップ(話の重なり)が重要な役割を果たしています。
例えば、友人との会話を思い浮かべてみてください。
あなた:「昨日、新しくできたレストランに行ったんだけど…」
友人:「えっ、どこ?美味しかった?」
あなた:「そうそう、すごく美味しくて…」
と、このようにあなたが完全に話し終える前に、友達が質問を被せたり、相づちを打つことで会話はスムーズに進行します。
ところが従来の音声AIは 「相手の話を聞き終えるまで沈黙する」 ため、どうしても違和感があったり、テンポ感の遅い会話になってしまうのです。

「J-Moshi」はどうやって自然な会話を実現したのか?
名古屋大学の研究チームは、この問題を解決するために 「Full-duplex(フルデュプレックス)音声対話技術」 に着目しました。
Full-duplexとは、相手の話を聞きながら同時に話すことができる技術で、人間の会話に近いリズムを実現します。
J-Moshiは、英語版の「Moshi」という既存のモデル(7Bパラメータ)をベースに開発され、大量の日本語音声データを学習することで、日本語特有の会話の流れや相づちを適切に処理できるようになりました。
さらにAIのリアルタイム処理能力を向上させ、発話がオーバーラップしても適切に対応できるように設計されています。
例えば、
従来のAIとの会話:
あなた:「昨日、新しいレストランに行ったんだけど…」
(数秒の沈黙)
AI:「どこのレストランですか?」
J-Moshiとの会話:
あなた:「昨日、新しいレストランに行ったんだけど…」
J-Moshi:「えっ、どこの?」(すかさず、相づちを入れる)
あなた:「あの近所のスーパーの隣にできたところで。すごく美味しくて…」
J-Moshi:「へぇ!どんな料理だった?」(自然なリアクション)
このようにJ-Moshiは 会話のテンポを崩さず、より人間らしい対話を実現します。
では、研究で行われた実際の会話を聴いてみましょう。
こちらのページでご視聴できます。

どうでしたか?あまりに滑らかで、どちらがAIでどちらが人間かもはや区別がつきませんね。
これまでの音声AIとの会話は「命令を伝えるツール」としての役割が強く、雑談にはあまり向いていませんでした。
しかしJ-Moshiの登場によって、AIと「自然におしゃべりする」未来が現実になりつつあります。
この技術が進化すれば、接客やカウンセリング、さらには一人暮らしの高齢者の話し相手など、幅広い分野での活用が期待されます。
「AIとの会話が楽しい」と感じる日が来るのも、そう遠くないかもしれません。
参考文献
相手の話を聞きながら話す、まるで人間のような対話 日本語で初のAI同時双方向対話モデル J-Moshiを開発
https://www.nagoya-u.ac.jp/researchinfo/result/2025/02/-ai-j-moshi.html
ライター
千野 真吾: 生物学出身のWebライター。普段は読書をするのが趣味で、休みの日には野鳥や動物の写真を撮っています。
編集者
ナゾロジー 編集部