本文へスキップ
NPO 法人ミラツク · RITEVol.001 / 2026.05.30 (Sat) / No.0247
問いを、記事に変える共創メディア。
Where questions become essays.
RITE ESSAY/メンバーの記事

AIは「見る」が、「読む」ことはできない

駅の改札前に設置された監視カメラが、大きなスーツケースを引く男性を捉えている。その映像を見た人間は、直前に何を経験したかによって、まったく異なる物語を瞬時に組み立てる。朝のニュースで強盗事件を知った人は「現金を運んでいるのではないか」と身構え、昨夜のサスペンスドラマで死体遺棄のシーンを見た人は背筋を冷たくする。スーツケースという同一の物体が、見る者の記憶と経験によって別々の意味を帯びる。この現象は、知覚が単なる光学的入力ではなく、身体に蓄積された経験の総体によって絶えず書き換えられる動的な行為であることを示している。では、カメラというレンズを通じて映像を処理するAIは、このスーツケースを「読む」ことができるのか。

Masaki Nakasuga
2026.06.18READ 8 MIN

駅の改札前に設置された監視カメラが、大きなスーツケースを引く男性を捉えている。その映像を見た人間は、直前に何を経験したかによって、まったく異なる物語を瞬時に組み立てる。朝のニュースで強盗事件を知った人は「現金を運んでいるのではないか」と身構え、昨夜のサスペンスドラマで死体遺棄のシーンを見た人は背筋を冷たくする。スーツケースという同一の物体が、見る者の記憶と経験によって別々の意味を帯びる。この現象は、知覚が単なる光学的入力ではなく、身体に蓄積された経験の総体によって絶えず書き換えられる動的な行為であることを示している。では、カメラというレンズを通じて映像を処理するAIは、このスーツケースを「読む」ことができるのか。

監視カメラの映像を人間が見るとき、脳は映像を受け取る前から解釈の準備を整えている。神経科学者ラジェシュ・ラオとデイヴィッド・バラードが1999年に示したように、人間の視覚野は網膜からの入力信号よりも、脳内部から降りてくるトップダウンの予測信号をはるかに多く処理している。つまり人間は「見てから考える」のではなく、「考えながら見ている」。スーツケースを引く男性の映像は、見る者の経験という文脈フィルターを通過して初めて意味を持つ。AIが同じ映像を処理するとき、そこには何が起きているのか。

視覚的証拠を「客観的事実」として扱う習慣は、19世紀末の近代犯罪捜査とともに誕生した。フランスの警察官アルフォンス・ベルティヨンは1883年に人体計測による犯罪者識別システムを考案し、フランシス・ガルトンは1892年に指紋分類法を体系化した。身体的特徴を数値化・記録することで犯罪者を同定しようとしたこの試みは、視覚的データが文脈を切り離しても意味を保持するという楽観的な前提に依拠していた。しかしベルティヨン法は双子の識別に失敗し、文脈なき事実の限界を露わにした。視覚的証拠への過信は、近代固有の認識論的習慣として今日のAI監視技術にも受け継がれている。

認知科学における「状況的認知(Situated Cognition)」の理論は、知覚が身体と環境との相互作用の中でしか成立しないことを示す。哲学者アンディ・クラークとデイヴィッド・チャーマーズが1998年に提唱した「拡張された心(Extended Mind)」の概念によれば、人間の認知はそもそも脳の内部に閉じておらず、身体・道具・環境との連続的な相互作用の中に成立している。AIの物体認識は統計的パターン照合として機能するが、身体を持たない存在は過去の経験から生まれる「文脈的事前確率」を持てない。スーツケースの映像に「旅行」「犯罪」「引越し」という複数の可能性を重ね合わせる能力は、身体的経験の蓄積から生まれるのである。

試してみてほしい小さな実験がある。同じ写真——大きなスーツケースを引く人物の映像——を、強盗事件のニュース記事を読んだ直後と、旅行雑誌を眺めた直後に、それぞれ見てみてください。自分の解釈がいかに直前の文脈によって変化するかを体感するこの行為は、知覚の文脈依存性を身をもって確認する認知実験となる。情報学者の西垣通が2004年に論じたように、情報の「意味」は送り手ではなく受け手の文脈によって生成される。この自覚こそが、AIに解釈権限を委ねることへの批判的リテラシーの出発点となる。自分が「見ている」と思っているものが、実は「読んでいる」ことだと気づいた瞬間、AIの限界が見えてくる。

「AIが犯罪を予測・防止できるか」という問いは、技術的可能性の問いではなく、「誰の文脈がAIに学習されるか」という権力の問いへと転換されなければならない。MITメディアラボのジョイ・ブオラムウィニとティムニット・ゲブルが2018年に実証したように、商用の顔認識AIは黒人女性に対して白人男性の最大34.7ポイント高い誤認識率を示した。これは「客観的カメラ」が実は学習データに埋め込まれた社会的偏見を忠実に再現する装置であることを意味する。文脈を持たないAIに文脈判断を委ねるとき、そこで再現されるのは社会の現状ではなく、データを生成した権力構造の鋳型である。

「AIが犯罪のない世界を作れるか」という問いを反転させると、別の問いが浮かび上がる。文脈なき監視が増えるほど、人間は自ら解釈する必要を失っていくのではないか。解釈とは、身体と経験と記憶が交差する場所に生まれる行為であり、それを機械に外注した先に待つのは安全な社会ではなく、解釈能力を手放した人間社会かもしれない。AIはスーツケースを「見る」ことができる。しかし「読む」ことは、今もまだ人間の身体にしかできない仕事である。

DEEPER 学術的な観点で深めると

1999年、米ワシントン大学のラジェシュ・ラオとデイヴィッド・バラードは『Nature Neuroscience』誌上で予測的符号化モデルを提唱し、視覚野が網膜入力よりも脳内トップダウン予測を優先処理することを示した。この発見が示す逆説は深い——人間の「見る」という行為は、すでに経験によって形成された予測モデルの検証作業に過ぎない。神経科学者カール・フリストンはこの知見を2010年に自由エネルギー原理として統合し、身体を持つ生物のみが環境との相互作用を通じて事前確率を更新できることを示した。身体なきAIが文脈的解釈を生成できない理由は、技術的未熟さではなく、存在論的な構造の違いにある。

SIGNAL 01

商用顔認識AIの誤認識率は、肌の色が濃い女性で最大34.7ポイント高く、白人男性との格差が実証された。「客観的」とされるAIの視覚が学習データの偏見を再現することを示す。(Buolamwini & Gebru, 2018, PMLR 81: 115

SIGNAL 02

人間の視覚野における信号処理の約80%は脳内トップダウン予測が占め、網膜からの入力は残り20%に過ぎないとされる。「見ることは考えること」であり、身体経験なきAIとの根本的差異を示す。(Rao & Ballard, 1999, Nature Neuroscience 2(1): 7987

SIGNAL 03

米国の予測的治安維持システムの導入都市では、アルゴリズムが高リスクと判定した地区への警察出動が増加し、その地区の逮捕件数がさらに増えるフィードバックループが確認されている。文脈なき予測が既存の不均衡を増幅する構造を示す。(Angwin et al., 2016, ProPublica調査報道)

SIGNAL 04

哲学者クラークとチャーマーズの拡張された心の理論(1998年)は、認知が脳内に閉じず身体・環境との相互作用に成立することを示した。AIが文脈的解釈を持てない構造的理由を哲学的に根拠づける古典論文。(Clark & Chalmers, 1998, Analysis 58(1): 719

KEY REFERENCE この回の典拠
  • Rao, R. P. N. & Ballard, D. H. (1999). "Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects." Nature Neuroscience, 2(1): 79–87. DOI: 10.1038/4580 / 視覚野がトップダウン予測を優先処理することを示した神経科学の基礎論文。人間の「見る」行為が身体的経験に依存する予測検証であることを実証する。
  • Buolamwini, J. & Gebru, T. (2018). "Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification." Proceedings of Machine Learning Research (PMLR), 81: 1–15. 商用顔認識AIが肌色・性別によって最大34.7ポイントの誤認識格差を示すことを実証。AIの「客観的視覚」が学習データの社会的偏見を再現する装置であることを明らかにした。
  • Clark, A. & Chalmers, D. (1998). "The Extended Mind." Analysis, 58(1): 7–19. DOI: 10.1093/analys/58.1.7 / 認知が脳内に閉じず身体・道具・環境との連続的相互作用の中に成立するという拡張された心の概念を提唱。身体なきAIが文脈的解釈を持てない哲学的根拠を与える。
  • Friston, K. (2010). "The free-energy principle: a unified brain theory?" Nature Reviews Neuroscience, 11(2): 127–138. DOI: 10.1038/nrn2787 / 予測的符号化を自由エネルギー原理として統合した統合レビュー。身体を持つ生物のみが環境との相互作用を通じて文脈的事前確率を更新できることを理論化する。
  • Dreyfus, H. L. (1972). What Computers Can't Do: A Critique of Artificial Reason. Harper & Row. AIが身体的経験に基づく文脈理解を持てないことを哲学的に論じた古典。現象学的立場からAIの解釈能力の構造的限界を早期に指摘した。
  • 西垣通(2004)『基礎情報学——生命から社会へ』NTT出版 情報の「意味」は送り手ではなく受け手の文脈によって生成されるという基礎情報学的視点を展開。AIが文脈を持てない理由を情報論から根拠づける日本語圏の一次的著作。
  • Pasquale, F. (2015). The Black Box Society: The Secret Algorithms That Control Money and Information. Harvard University Press. AIアルゴリズムの不透明性と社会的権力構造を論じた一般向け著作。文脈判断をアルゴリズムに委ねることの倫理的危険性を権力論として展開する補助文献。
NEXT — 次の記事への示唆

次は「AIが学習するデータそのものが、誰の経験を正典とし誰の経験を周縁化するか」という問いへと進みます。データ収集の政治学を掘り下げることで、技術の中立性という神話がいかに構築されてきたかを問います。

FOR THE READER WHO FINISHED / 読み終わったあなたへ

いま立ち上がっている問いを、深掘り記事に。

読み終わった読者が立てた問いと、それに応える深掘り記事の連鎖です。

まだ深掘りの問いはありません。読了したら下部の入力欄から最初の問いを書いてみてください。