Huberman Lab · 2026年5月21日

エッセンシャルズ：言語学習と発話の科学 | エディ・チャン博士

AI generated article / ja / study

この記事でわかること

概要本エピソードでは、神経外科医でありカリフォルニア大学サンフランシスコ校（UCSF）脳神経外科主任教授のエディ・チャン博士が、音声と言語の神経基盤について深く掘り...
[0:37] 言語と音声の違い：脳は何を処理しているのかチャン博士はまず、しばしば混同される「言語」と「音声」の明確な区別を提示する。音声とは「コミュニケーション信...
ハーバーマンが指摘するように、私たちが日常的に会話するとき、個々の音節や舌の動きを意識することはほとんどない。しかしチャン博士の研究は、まさにこの無意識のプロセスを脳...

こんな人向け

自分では見つけにくい海外Podcastの話題に、日本語で気軽に触れたい人。

出典Podcast

Huberman Lab / Scicomm Media

要点

音声（speech）は物理的なコミュニケーション信号であり、言語（language）は語用論・意味論・統語論を含むより広い概念で、異なる脳領域によって処理される。
音声生成は「呼気→喉頭での発声（声帯振動）→声道での整形」の三段階で構成され、人間の最も複雑な運動行為の一つである。
泣き声や笑い声などの原始的な発声は、学習された音声とは異なる脳回路（非ヒト霊長類も持つ古いシステム）によって制御される。
チャン博士のBRAVO試験では、ロックトイン症候群の患者パンチョの脳に電極アレイを埋め込み、50語の語彙とAIオートコレクトを組み合わせて、脳活動から直接単語と文をデコードすることに成功した。
脳機能増強（augmentation）の倫理的課題は未解決であり、侵襲的技術へのアクセスや社会的影響についての議論が急務である。
研究チームはテキスト表示だけでなく、表情や口の動きをデコードしてリアルタイムアバターを生成する技術も開発中であり、非言語コミュニケーションの回復を目指している。
吃音は言語ではなく音声の協調障害であり、不安は原因ではなく増悪因子である。聴覚フィードバックの操作が吃音に影響を与えることは、脳内の運動-聴覚連関の重要性を示している。

アプリで聴く・質問する

音声を聴く・要約に質問・好きな言語や深さで生成

他のエピソード

概要

本エピソードでは、神経外科医でありカリフォルニア大学サンフランシスコ校（UCSF）脳神経外科主任教授のエディ・チャン博士が、音声と言語の神経基盤について深く掘り下げる。アンドリュー・ハーバーマンとの対話形式で進行するこの回は、脳がどのようにして息を言葉に変えるのかという根本的な問いから、麻痺患者が脳活動だけでコミュニケーションできるようにする画期的な神経プロテーゼの開発、そして吃音の神経生物学や脳機能増強技術の倫理的課題に至るまで、幅広いトピックをカバーしている。チャン博士の臨床試験「BRAVO試験」の第一被験者であるパンチョの感動的な実話は、科学の最前線が実際の人間の生活をどのように変えつつあるかを生々しく伝えている。

0:37言語と音声の違い：脳は何を処理しているのか

チャン博士はまず、しばしば混同される「言語」と「音声」の明確な区別を提示する。音声とは「コミュニケーション信号そのもの」であり、口や声道を動かして言葉を生成する物理的なプロセスを指す。一方、言語ははるかに広い概念であり、話し手の意図を汲み取る「語用論（pragmatics）」、単語や文の意味を理解する「意味論（semantics）」、そして単語を文法的に組み立てる「統語論（syntax）」の三つの要素から構成される。音声は言語の一形態にすぎず、手話や読書なども言語の重要なモダリティであるとチャン博士は説明する。

ハーバーマンが指摘するように、私たちが日常的に会話するとき、個々の音節や舌の動きを意識することはほとんどない。しかしチャン博士の研究は、まさにこの無意識のプロセスを脳活動レベルで解読することを目指している。音声生成は「人類が行う最も複雑な運動行為」であり、オペラ歌手やフリースタイルラッパーの超絶技巧はその極致であるとチャン博士は述べる。

3:11喉頭と声帯：息を言葉に変えるメカニズム

音声生成のプロセスは、まず肺に空気をため、それを押し出す呼気から始まる。ここに喉頭（larynx）が加わることで、単なる呼吸が音声へと変換される。喉頭内部にある声帯（vocal folds）は、実際には「紐」ではなく二枚の組織片であり、筋肉によって引き寄せられると、呼気が通過する際に毎秒100〜200回という高周波で振動する。男性の声が低く、女性の声が高いのは、喉頭のサイズと形状の違いによるもので、男性の基本周波数は約100Hz、女性は約200Hzである。

この喉頭で生み出された「声のエネルギー」は、その後、咽頭（pharynx）を通って口腔へと上がり、舌や唇によって特定の形に整形される。これが子音と母音の生成であり、チャン博士はこれを「息を形作る（shaping the breath）」と表現する。つまり、音声とは「呼気→喉頭での発声→声道での整形」という三段階のプロセスなのだ。

5:35泣き声と笑い声：音声と異なる神経基盤

泣き声や笑い声のような「発声（vocalization）」は、音声とは異なる脳領域によって制御されている。チャン博士によれば、これらは言語野に損傷を受けた患者でも可能であり、非ヒト霊長類も持つ進化的に古い神経回路に依存している。音声と言語は学習と意識的な制御を必要とするのに対し、泣き声や笑い声はより原始的で反射的なコミュニケーション形態である。この区別は、脳が異なる種類の音声出力をどのように使い分けているかを理解する上で重要である。

8:52ロックトイン症候群：閉じ込められた意識

チャン博士の研究の臨床的応用は、脳幹卒中やALS（筋萎縮性側索硬化症）などの疾患によって「ロックトイン症候群（locked-in syndrome）」に陥った患者に向けられている。脳幹は大脳（思考や運動制御を司る）と脊髄をつなぐ部分であり、ここで卒中が起きると、患者は完全に認知機能を保ちながらも、言葉を発することも手を動かすこともできなくなる。チャン博士はこれを「最も破壊的な状態」と表現し、心理的・社会的に完全な孤立をもたらすと説明する。

10:52BRAVO試験とパンチョ：最初の患者の物語

チャン博士が主導する臨床試験「BRAVO試験」の第一被験者は、15年前の自動車事故で脳幹卒中を起こした男性、パンチョである。事故当日は病院を歩いて出たものの、翌日に合併症で大規模な脳幹卒中を発症し、約1週間の昏睡状態から覚醒した後、話すことも手足を動かすこともできない自分に気づいた。彼は当時、死を望んだという。

パンチョはわずかに残った首の動きを利用し、野球帽に取り付けた棒でキーボード画面の文字を一つずつ打つことでコミュニケーションを取っていた。この状態が15年続いた後、チャン博士のチームはFDAの承認を得て、脳手術を実施。声道（喉頭、唇、舌、顎）の制御を司る大脳皮質領域に電極アレイを埋め込み、それを頭蓋骨に固定されたポートに接続した。このポートからワイヤーを通じて脳波（アナログ信号）をデジタル信号に変換し、機械学習アルゴリズムで解析することで、脳活動パターンを単語に翻訳する仕組みである。

14:3450語の語彙とAIオートコレクト

最初の段階では、システムは50語の語彙セットから学習を開始した。重要なのは、これらの50語から生成可能なすべての文の組み合わせを事前に計算モデル化し、いわば「オートコレクト」機能を実装した点である。チャン博士はこれをスマートフォンのテキスト入力に例える。脳活動のデコードは100%正確ではないため、文脈に基づいて誤りを自動修正する仕組みが不可欠なのだ。AIによる脳活動パターンの翻訳と、音声技術から学んだ言語モデルを組み合わせることで、初めて実用的なコミュニケーションが可能になった。

パンチョが初めて自分の思考が画面上の単語として現れるのを見たとき、彼の体は震え、笑い声をあげた。しかしチャン博士はユーモラスに、この笑い声が次の単語のデコードを妨げる「バグ」であることを認め、現時点では「笑うのをやめてください」と伝えるのが最も簡単な解決策だと述べている。

17:30脳機能増強の倫理：ニューラリンクを超えて

ハーバーマンは、イーロン・マスクのNeuralinkを例に挙げ、脳機能を「超人的」に増強する技術の可能性について質問する。チャン博士は、脳-機械インターフェース（BMI）の研究は数十年にわたって行われてきたが、最近の変化は産業界の参入と商業化であると指摘する。彼は「増強（augmentation）」という概念自体は新しいものではなく、コーヒーやニコチン、美容整形など、人類は歴史的に機能や外見を向上させてきたと述べる。

しかし、侵襲的な脳技術による認知機能の増強については、まだ十分な倫理的議論が行われていないと警告する。誰がこの技術にアクセスできるのか、社会にとって本当に望ましいのか、といった問題は現実のものとなる。同時にチャン博士は、現在の技術では、自然進化によって洗練された人間の神経回路（数百万のニューロンからなる帯域幅）には遠く及ばないとも指摘する。iPhoneがすでに事実上の「脳インターフェース」として機能している現状を考えれば、増強技術の進歩は劇的というより漸進的なものになるだろうと予測する。

22:21アバターと非言語コミュニケーション：表情のデコード

チャン博士のチームは、テキスト表示だけでなく、患者の顔の動きや表情をデコードしてリアルタイムのアバターを生成する研究も進めている。対面コミュニケーションにおいて、口の動きを視覚的に捉えることは音声の了解度を向上させる。また、相手の表情（困惑、同意など）は会話の流れを調整する重要な非言語的手がかりである。

この技術は、麻痺患者がデジタル空間での社会的相互作用に完全に参加することを可能にする。チャン博士は「近い将来、ツイートがテキストではなく自分のアバターが話す形になる」と予測し、このアバター技術が「音声神経プロテーゼ（speech neuroprosthetic）」の学習を加速させるフィードバック機構としても機能すると説明する。患者がアバターを自分の身体の延長として「体感」できるようになれば、コミュニケーションの速度と自然さが飛躍的に向上するという。

27:12吃音の神経生物学：不安は原因ではない

吃音（stuttering）は言語ではなく音声の問題であり、アイデアや文法は完全に保たれているにもかかわらず、言葉が流暢に出力されない状態である。チャン博士は吃音を「交響楽団の協調の崩壊」に例える。喉頭、唇、顎がそれぞれ独立して動くのではなく、極めて精密に協調しなければ流暢な音声は生まれない。吃音はこの協調メカニズムが特定の条件下で機能不全に陥る現象である。

重要なのは、吃音と不安の関係である。不安は吃音を誘発し悪化させるが、吃音の原因ではない。吃音者でも吃音が出ない瞬間があり、これは脳内の特定の条件下で協調がうまく機能することを示している。治療の中心は言語療法であり、特に「発話の開始」が困難な患者に対しては、言葉を出すための条件を作り出す訓練が行われる。

チャン博士はまた、「聴覚フィードバック（auditory feedback）」の重要性を指摘する。私たちは話すとき、自分の声を聞いている。このフィードバックループを変化させると、吃音の程度が変わることが知られており、脳が運動指令を送るだけでなく、聴覚情報と相互作用している証拠である。この接続の異常が吃音の一因である可能性が示唆されている。

まとめ

このエピソードが聴き手に残す最大の印象は、音声と言語という日常的に使っている能力の背後にある驚くべき神経メカニズムの複雑さと、その理解がもたらす臨床的応用の力である。チャン博士のBRAVO試験は、単なる技術デモンストレーションではなく、15年間沈黙していた人間に再び「声」を取り戻すという人間ドラマであり、脳-機械インターフェースが医療の領域で現実のものとなりつつあることを示している。同時に、吃音のメカニズムや脳機能増強の倫理についての議論は、この技術がもたらす社会的影響を真剣に考える必要性を喚起する。科学の最前線と人間の尊厳が交差する、示唆に富んだ一時間である。