車載LLMとは?クルマにAIが載るとできること・仕組みを解説NEW
車にLLM(大規模言語モデル)を載せると、ハンドルを握ったまま曖昧な言葉で目的地や夕食のレシピを尋ね、会話を続けながら答えを引き出せるようになる。Mercedes-Benzは2023年6月16日、米国の90万台超を対象にChatGPT連携の音声アシスタントのベータ配信を始めたと発表した。本稿では、車載LLMで実際に何ができ、どう動き、どこに限界があるのかを、メーカー横断で掘り下げる。
キーワードは「意味を解釈する」こと。従来の音声コマンドが決められた言い回ししか受け付けなかったのに対し、LLM型は人間の曖昧な指示を読み取って応答する。ここ2年で各社が一斉に動き、中国勢は2025年に入って雪崩を打った。順を追って整理する。
旧来の音声アシスタントと何が違うのか

これまでのクルマの音声操作、たとえば「ナビ、自宅へ」「エアコン、22度」といった指示は、ルールベースのキーワード認識で動いていた。登録された言い回しに一致したときだけ反応し、登録外の言葉や複数の用件をまとめた指示は理解できない。会話は基本的に一往復で、前の発言を覚えていない。つまり「文脈」を持たない。
LLM型はここが根本的に違う。言葉の意味を解釈するため、応答できる話題が一気に広がる。学術的にも、対話エージェントの言語理解能力が旧来手法を上回ることは複数の研究(arXiv 2508.08101、2309.13879)が独立に裏付けている。
各社が見せる使い方
Mercedesの例がわかりやすい。2024年12月の正式版では会話履歴を最大1時間保持すると発表しており、あるアーティストのグラミー受賞数を尋ねたあと「最初に獲ったのはいつ?」と話題を引き継いで追加質問できる。運転中に手を離さず、目的地の詳細を聞いたり、夕食のレシピ提案を受けたりする使い方を想定している。
NIOの車載アシスタント「NOMI GPT」は、自然言語でアンビエントライトを調整するといった車両制御に加え、科学・歴史・芸術・映画・音楽の知識Q&Aや、お題の決まっていないオープンチャットに応じると発表されている。コマンドの実行装置から、同乗者のような存在へと役割が広がっているわけだ。中国EVの全体像は中国EVメーカー一覧ガイドでも整理している。
仕組み – 音声が答えになるまでの4段階

声をかけてから返事が返るまで、内部では何が起きているのか。NVIDIAが示す車載対話AIのパイプラインは4段階に分かれる。第1段がASR(自動音声認識)で、車内マイクが拾った音声をテキストに変換する。第2段がオーケストレーター。交通整理役として、ユーザーの意図と会話の状態(セッション)を保持しながら、ナビ操作なのか知識質問なのかでスキルを振り分ける。第3段がLLM推論で、過去のやり取りを高速参照するKVキャッシュを管理しつつ答えを生成する。第4段がTTS(音声合成)で、回答テキストを自然な声に戻して読み上げる。
この4段を順番につなぐ方式(カスケード型)に対し、近年は音声から音声へ直接変換するエンドツーエンド(speech-to-speech)型も台頭しており、設計思想が割れている。途中でテキストを介さないぶん応答が速く自然になりうる一方、各段を個別に検証・調整しにくいという緊張関係がある。
クラウドか、車載か – トレードオフの中心

車載LLM設計の核心は、推論をどこで走らせるかにある。クラウド推論は、データセンター側の強力な大型モデルを使えるのが利点だ。半面、通信のオーバーヘッドがあり、車内音声をクラウドへ送るためプライバシーの懸念がつきまとい、トンネルや山間部で電波が途切れれば応答が届かない。エッジ推論(オンデバイス)はその逆で、車載チップ上で完結するため低遅延・高信頼で、オフラインでも動き、データを車外に出さずに済む。ただし車載の計算資源とメモリには限りがあり、載せられるモデルの規模が制約される。
そこで両者を組み合わせるハイブリッド/協調型が主流になりつつある。Volkswagenが採用するCerence Chat Proが代表例で、まず車載側の組み込みコマンドで処理を試み、答えられない要求だけを匿名化してクラウドのChatGPTへ転送すると説明されている。日常の操作は手元で素早くこなし、難問だけクラウドに頼る役割分担だ。オンデバイス実行の目安として、NVIDIAは7B(70億パラメータ)以上のモデルをローカルで動かし、応答レイテンシ500ミリ秒未満、毎秒30トークン超のデコードを挙げている。ただしこれは同社が示す設計上の参照値であって、実機ベンチマークの計測結果ではない点に注意したい。Cerenceも2025年3月13日にハイブリッド基盤「xUI」を発表しており、車載側はMetaのLlama系やMicrosoftのPhi系を自動車データでファインチューニングしたとしている。
各社の実装を比較する
主要プレイヤーを並べると、土台に外部の大型モデルを借りつつ、置き場所(クラウドか車載か)で差をつけている構図が見える。いずれもメーカー/ベンダーの自己申告に基づく公表値である。
| 項目 | Mercedes-Benz | Volkswagen | NIO | 中国勢(DeepSeek搭載) |
|---|---|---|---|---|
| ベース技術 | ChatGPT(Azure OpenAI経由) | Cerence Chat Pro(ChatGPT統合) | Azure OpenAI | DeepSeek R1ほか |
| アーキテクチャ | クラウド型 | ハイブリッド型 | クラウド型 | 車載コックピット統合(各社申告) |
| 入口の名称 | Hey Mercedes(MBUX) | Hello IDA | NOMI GPT | 各社の車載AI(宝駿Lingyuほか) |
| 公表時期 | 2023年6月(米ベータ・90万台超) | CES 2024発表/2024年Q2展開 | 2024年4月OTA | 2025年2月 |
| 音声データの扱い | 匿名化・分析と説明 | 該当要求のみ匿名でクラウド転送と説明 | クラウド処理 | 非公表/各社まちまち |
VWは「走行中の既販車へクラウドOTAで配信した初の自動車メーカー」と自称し、Cupra・Seat・Skodaを含むグループ各ブランドへ標準展開する。NIOのNOMI GPTもOTA配信で、ハードを替えずソフト更新で機能が降ってくる点は各社共通している。設計思想の違いは次の軸で整理できる。
| 観点 | クラウド推論 | エッジ推論 | ハイブリッド |
|---|---|---|---|
| モデル規模 | 大型(高精度) | 小〜中型(制約あり) | 用途で使い分け |
| レイテンシ | 通信状況に依存 | 低遅延 | 状況次第 |
| オフライン動作 | 不可 | 可 | 一部可 |
| プライバシー | 相対的に高リスク | 車外にデータを出さない | 中間 |
| 代表例 | Mercedes、NIO | NVIDIA参照値(7B/<500ms) | VW(Cerence) |
DeepSeek搭載ラッシュとVLAへの接近
2025年2月、中国で車載LLMの導入が一斉に進んだ。SAIC-GM-Wuling傘下の宝駿(Baojun)が2月8日、DeepSeek R1を車載コックピット「Lingyu Smart Cockpit」へ統合完了したと発表。同じ日にIM Motors(智己)はDeepSeekをByteDanceのDoubao、AlibabaのTongyiと組み合わせた構成を公表し、BYDやZeekr、吉利なども同時期に追随したと報じられている。中国メーカーが自国製の高性能モデルを得て横並びで動いた格好だ。
もう一つの潮流が、自動運転との接近である。視覚認識・自然言語理解・車両制御を一つの枠組みに束ねるVLA(Vision-Language-Action)が研究の最前線に立つ。高レベルの言語指示を解釈し、カメラがとらえた交通シーンを推論して操作につなげる方向だ。査読サーベイ(arXiv 2506.24044、ICCV 2025 Workshop)によれば、2025年6月時点で代表的なVLAは20以上あり、初期の「説明する」型から推論中心へと進化している。ただし単一ポリシーへ統合するエンドツーエンド型だけでなく、遅いVLM推論と速いプランナーを組み合わせるモジュラー型も存在し、「統合かモジュラーか」はまだ決着していない。車載AIも標準が定まる前の競争期にある(充電規格の現状は充電インフラガイドを参照)。
限界とリスク – 「安全」と言い切れない理由

機能の華やかさの裏で、未解決の課題は多い。最大の論点は運転中の安全性だ。Google Gemini Liveの実路試験(2026年1月、被験者32名)では、LLMとの対話による認知・視覚負荷はハンズフリー通話と同等の低リスク水準にとどまり、視線が前方を離れる総時間も2秒の安全閾値を十分下回ったと報告されている。一見すると心強い数字だが、この試験は著者がExponentとGemini Live提供元のGoogleに所属しており、独立検証ではない。利益相反がある以上、結果は割り引いて読む必要がある。
そして重要な事実として、車載LLMの運転中安全性について、利害関係のない第三者による検証は現時点で見当たらない。ハルシネーション(もっともらしい誤答)や注意散漫を直接定量した独立研究も確認できていない。だから本稿は「車載LLMは安全だ」とは書かない。他のリスクも具体的だ。クラウド型は圏外で機能が止まり、プライバシー問題は地域の規制とも絡み、常時の推論にはコストもかかる。これらは技術の成熟だけでは消えない、運用と制度の問題でもある。
BLADE NOTEの見立て
車載LLMを評価するとき、私たちが最も重視するのは「ガジェット止まりか、運転体験を本当に変えるか」という一点だ。現状を冷静に見れば、いまの主役はインフォテインメント、つまり同乗者を退屈させない会話相手や、検索の代わりとしての知識Q&Aである。これは便利だが、スマホで足りる用件をダッシュボードに移しただけなら、新機能というより付加価値の演出にすぎない。
分岐点は二つある。第一に、運転に関わる文脈(前方の状況、ルート、車両状態)と結びついて初めて、車載である必然性が生まれる。VLAの方向はその本命だが、まだ研究段階だ。第二に、ハイブリッド構成が「圏外でも使える」を本当に実現できるか。VWやCerenceの自己申告がどこまで実機で成り立つのか、独立した検証が出てくるまでは判断を保留する。本稿で挙げた機能・性能のほぼすべてはプレスリリースや開発者ブログに由来し、第三者が同条件で再現した結果ではない。読者には、華やかな発表と検証済みの事実を分けて受け取ってほしい。
日本市場の視点では、日本メーカーは生成AIの車載化で出遅れ気味との見方が根強い。日本語LLMの応答品質、車内データに対する慎重な国民感情、トンネルの多い通信環境は、いずれもクラウド一辺倒には不利に働く。逆に言えば、エッジ寄りの設計と日本語対応で先行できれば差別化の余地はある。だが結論を一文で言い切るなら——運転そのものを助ける機能が実装され、独立した安全評価が積み上がるまで、車載LLMは中国EVを日本で選ぶ際の決め手にはならない。いまはまだ、航続距離・価格・充電のしやすさが先で、LLMはその次だ。
出典
- Car voice control with ChatGPT(Mercedes-Benz Group 公式)
- Volkswagen and Cerence commence roll-out of new generative AI voice assistant(Cerence 公式)
- Cerence AI debuts xUI, its hybrid LLM-based platform(Cerence 公式)
- How to Build In-Vehicle AI Agents with NVIDIA(NVIDIA Developer)
- NIO rolls out NOMI GPT(CnEVPost)
- Multiple Chinese automakers integrate DeepSeek into smart cockpits(Yicai Global)
- A Survey on Vision-Language-Action Models for Autonomous Driving(arXiv 2506.24044)
BYD・中国EVの最新ニュースを毎日配信中。
フォローして最新情報をチェック!