シンギュラリティは2045年じゃない｜GPU・Transformerで読むAI技術史

はじめに

子供の頃から、物事を演繹と帰納の両輪で考える癖があった。みんなが「こうだ」と言うことには、いちいち引っかかる。たいてい、違う答えに辿り着く。ただし、そのやり方は重かった。二つの回路を同時に回すから、結論が出るまでに時間がかかる。周囲がとっくに先へ進んでいるのに、自分だけまだ考えている。

それがいつの間にか、変わった。ある現象を見て、「ここが効く」と直感する。その勘は、しばしば正しい。だが、その勘がどういう仕組みで働いているのか、説明できたためしがない。かつての重さは消えていた。無自覚に、何かを使っていた。それが何なのかは、長いこと謎のままだった。

その謎が、最近になって解けた。きっかけは——AIだった。

LLMの仕組みを問い続けるうちに、奇妙なことに気づいた。機械の中で起きていることが、自分の頭の中で無自覚にやってきたことと、同じ形をしている。

その話をする前に、もっと大きな問いから始めたい。「シンギュラリティは2045年に来る」——誰もが口にするこの一文だ。本当に、そんな”点”として来るのか。

——この問いは、最後に自分へ返ってくる。

「2045年」という数字の出どころ——概念史を点検する

「シンギュラリティ」という言葉を疑うところから始める。

最初に「知能爆発」を論文化したのは数学者のI・J・グッドだ。1965年、彼は「超知的機械はさらに優れた機械を設計できる。それは知能爆発を意味し、人間の知能ははるか後方に置き去りにされる」と書いた。最初の超知的機械は、人間が作る最後の発明になりうる、と。1965年の話だ。

その28年後、コンピュータ科学者でSF作家のヴァーナー・ヴィンジが1993年に論文を発表し、「技術的特異点は2030年までに到来する」と言い切った。レイ・カーツワイルの『シンギュラリティは近い』が出たのは、それからさらに12年後の2005年だ。

3者の定義は微妙にずれている。グッドは超知的機械の自己改良ループ。ヴィンジは人間を超えるAIの出現による予測不可能性。カーツワイルはAIと人間の融合だ。

カーツワイルは「2045年」と「2029年」の2つの数字を使い分けている。2029年はAGI（Artificial General Intelligence＝汎用人工知能）到達。2045年は脳とAIの融合という状態だ。この区別が、よく混同される。「2045年まで何も変わらない」という読み方は、概念の誤読だ。

候補A：2006〜2012年——GPU革命という「地面」

スパイク点を論じる前に、地面の話をしなければならない。

ジェフリー・ヒントンは誤差逆伝播法を1986年に論文化した。理論は1986年に存在した。なぜ2012年まで大規模には動かなかったのか。CPUでは計算が間に合わなかった、というだけだ。

ニューラルネットワークの学習は、行列の積和演算を何百万回と繰り返す処理だ。CPUは複雑な処理を順番に速くこなす装置。一方、GPUは単純な処理を同時並列にこなす装置として、ゲーム向けに進化してきた。画面の数百万のピクセルを同時に計算する必要があるからだ。この単純な処理の大規模並列が、ニューラルネットワークの行列演算と正確に噛み合った。

2006年11月、NVIDIAはCUDA（クーダ）を発表した。Compute Unified Device Architectureの略で、GPUをグラフィクス専用から汎用並列コンピュータとして使える基盤だ。「従来比100倍」という謳い文句は、行列演算に限れば誇張ではなかった。

この道具がなければ、その後のすべてのアーキテクチャは動かなかった。アーキテクチャと計算基盤は、切り離して論じられない。

候補B：2012年——AlexNetと「ディープラーニングが機能する」という証明

2012年9月、画像認識コンペティションILSVRCにAlexNetが登場した。クリジェフスキー、サツケバー、ヒントンの3名がトロント大学で開発したこのCNNは、従来手法にエラー率で約10ポイント以上の差をつけて圧勝した。

ここで用語を整理する。機械学習（マシンラーニング）とは、明示的なプログラムなしにデータからパターンを学ぶ手法の総称だ。正解ラベル付きデータで学ぶのが「教師あり学習」、ラベルなしでデータの構造を見出すのが「教師なし学習」、データ自体から擬似的に正解を生成して学ぶのが「自己教師あり学習」だ。ディープラーニング（深層学習）は、多層のニューラルネットワークを使う機械学習の一手法を指す。AlexNetは「ディープラーニング＋教師あり学習」で画像認識を制した。後に登場するLLMは、大量テキストから次の単語を予測する「自己教師あり学習」で事前学習される。

数字より重要なのは「質の断絶」だ。それまでの画像認識は、人間が特徴量を設計してアルゴリズムに与えていた。AlexNetは違う。GPUを使い、大量データから特徴量を自己発見した。人手で設計した認識ではなく、機械が学んだ認識が勝った。

AlexNetは2台のGTX 580 GPUにモデルを分割して学習させた。1台では収まりきらないほど大きかった。「理論的には知られていたが大規模には動かない」という当時の通説が、この日を境にひっくり返った。

突然変異に見える。しかしヒントンの30年、CUDAという基盤、ImageNetという大規模データセット、ReLUの実用化が揃ったときに、AlexNetは起きた。そのImageNetを作ったのが、フェイフェイ・リー（李飛飛、Fei-Fei Li）だ。2007年にプロジェクトを立ち上げ、2009年に公開した。「アルゴリズムは機能していなかった。機械が見るためには、データ主導のアプローチが必要だ」という確信からだった。この人物については、後でもう一度登場する。

候補C：2017年——Transformerは「加算」ではなく「減算」の飛躍だった

Googleが2017年に発表した「Attention Is All You Need」は、技術的な説明だけでは本質を捉えられない論文だ。

「順番に処理する」という思考停止

2017年当時、系列データを処理するには「順番に処理する（再帰）」のが自明の前提だった。文章は前から後ろへ読む。単語の意味は直前の文脈から決まる。だから処理も順番でなければならない——この前提は、選択肢ですらなかった。「そういうものだ」という思考停止だった。

RNN（Recurrent Neural Network＝再帰型ニューラルネットワーク）はその前提を実装した。トークン1を処理してからトークン2へ。トークン1000に到達するには999ステップを経る。原理的に逐次処理だ。GPUに並列処理させたくても、前の計算が終わらないと次に進めない。数千コアが遊んでいる状態になる。

前提を捨てた構造——セルフアテンション

Transformerは、この前提を不要だと見抜いて捨てた。セルフアテンション機構は、系列の全トークンを一斉に参照する。トークン1もトークン999も、同時に処理できる。これは大規模な行列乗算として実装される——そして行列乗算こそ、GPUが最も得意とする演算だ。

具体的な仕組みはこうだ。各トークンは、学習済みの重み行列W（Weight）によって3つのベクトルに変換される——Query（何を探しているか）、Key（何者であるか）、Value（持っている情報）だ。あるトークンのQueryと、すべてのトークンのKeyの類似度を計算し、類似度の高いトークンのValueを重点的に集約する。「どの単語がどの単語に注目すべきか」——その判断基準がすべて重み行列Wに刻まれている。Wは学習データから育てられた数値の塊であり、LLMの「知識」の実体だ。

逐次処理を捨てた（減算した）からこそ、全トークンを並列処理でき、それがGPUの並列性と噛み合った。この従属関係が、現在のLLM爆発の直接の構造的理由だ。

ブレイクスルーは加算で起きたのではない。全員が必要だと信じていた前提を不要だと見抜いて捨てた、減算によって起きた。GPT、BERT、ChatGPT、Claude、Gemini——現在のすべてのLLMの直接の祖先はTransformerだ。この一点で、2017年はスパイク点の最有力候補になる。

候補D：2020年——スケールすれば「知能が出現する」という発見

2020年6月、OpenAIはGPT-3（GPTはGenerative Pre-trained Transformer＝事前学習済み生成トランスフォーマーの略）を発表した。パラメータ数は1750億。

数字より重要なのは、GPT-3が証明した「スケール則」だ。モデルを大きくするほど、データを増やすほど、計算量を増やすほど、能力が予測可能に改善していく。そしてある規模を超えると「創発」が起きる——小さいモデルでは皆無だった能力が突然出現する。

創発は、量的変化が質的変化に転換する相転移に相当する。スケールが閾値を超えたとき、推論・コーディング・翻訳の能力が突発的に現れる。スケール則は予測できても、どのタイミングでどの能力が出現するかは予測できない。これが「突然変異に見える」原因だ。GPT-3登場後、AI開発が「研究」から「スケールゲーム」に変質した。

ただし重要な区別がある。スケール則は「量が増えれば能力が上がる」という感覚論ではない。計算量・パラメータ数・データ量のそれぞれに対して、損失が冪乗則で減少するという数学的な関係だ。OpenAIのKaplanらが2020年に発表した論文がこれを定式化した。この法則が確立したことで、AI開発は「実験」から「エンジニアリング」に変わった。「次のモデルがどれくらい賢くなるか」が、ある程度事前に計算できるようになったのだ。

資本が入るのは必然だった。予測可能な投資対効果が存在するなら、それはビジネスになる。

候補E：2022年11月——「見えた」日

2022年11月30日、OpenAIはChatGPTを静かにリリースした。約2か月で月間アクティブ推定1億人。インターネット史上最速級の普及と報じられた。

技術的にはGPT-3.5ベースのファインチューニング（事前学習済みモデルを特定用途向けに追加学習で調整すること）モデルに過ぎない。具体的には、人間の指示に自然な対話で応答するよう調整する「インストラクション・チューニング」と、人間のフィードバックによる強化学習（RLHF）を組み合わせた手法だ。モデル自体の技術的新規性は小さい。だが「一般ユーザーが使える対話型AIが世界に公開された」という事実は、技術的な新規性を超えた意味を持つ。研究者の間では以前から見えていたものが、この日、世界の全員に見えた。これは技術の飛躍ではなく、知覚の臨界点だ。

数字が象徴的だ。Instagramが100万ユーザーに達するのに2.5ヶ月かかった。Spotifyは5ヶ月、Dropboxは7ヶ月。ChatGPTは5日間だった。

ただし「技術の飛躍」と「社会への浸透」は別の出来事だ。ChatGPTの技術的本質はGPT-3.5のインストラクション・ファインチューニングであり、前年からOpenAI内部では動いていた。世界が変わったのではない。世界が「見えた」のだ。それがこの日の意味だ。

研究者とエンジニアにしか見えていなかったものが、11月30日以降、誰にでも見えるようになった。閾値を超えたのは技術ではなく、知覚だった。

5候補の整理——何を「スパイク点」と呼ぶかで答えが変わる

候補	年	出来事	何を変えたか
A	2006〜	CUDA / GPU革命	計算基盤。理論を現実に変えた「地面」
B	2012	AlexNet	ディープラーニングが「機能する」ことの実証
C	2017	Transformer	「順番処理」前提の破棄。スケールを可能にした構造
D	2020	GPT-3	スケール則・創発の証明。資本論理の確立
E	2022	ChatGPT	「全員が見えた」知覚の臨界点

どれがスパイク点か。問いの定義に依存する。計算物理的な因果を問うならA。技術パラダイムの転換を問うならC。現在のLLM爆発の直接の起源を問うならC。社会変化の起点を問うならE。「スパイク点は一つである」という直感そのものを、次に問い直す。

この整理から、一つのことが見えてくる。「どれが本当のスパイク点か」という問い自体が、前提を誤っている可能性だ。

候補AからEは、それぞれ異なる軸での転換点だ。計算基盤の軸、アーキテクチャの軸、スケールの論理の軸、社会実装の軸。これらは同じ一本の線上にない。「どこが引き金か」を一点に絞ろうとすることは、五つの別々の川のどれが「海の原因か」を問うようなものだ。

「突然変異か必然か」——時間スケールという鍵

表面だけ見れば、各転換点は突然変異に見える。AlexNetの圧勝は前年比の差が大きすぎた。ChatGPTも、1週間前まで予見した者は少数だった。

だが立ち止まる。ヒントンは1986年に誤差逆伝播を論文化し、冬の時代も研究を続けた。AlexNetはその30年分の結晶化だ。アテンション機構は論文以前から存在した。「Attention Is All You Need」がやったのは、RNNを捨てるという認識の転換だ。スケール則も、大きいモデルほど賢いという感覚は以前からあった。GPT-3はそれを数学的関係として証明した。

突然変異と必然の帰結は、時間スケールによって使い分けられる。短期（1〜3年）では突然変異に見える。中期（10〜20年）では必然の帰結に見える。長期（50〜100年）では、また突然変異に見える——人類史の中では、ほんの瞬間だ。

「突然変異か必然か」という二項対立は、問いの立て方に問題がある。正確には「短期では突発的だが、中期では必然的な帰結として構造化されていた」だ。局所で見れば不連続。全体で見れば、法則の範囲内だ。

「単一の閾値として来る」という前提を疑う

ここが本稿のコアだ。「シンギュラリティはもう始まっている、スパイク点は2017年と2022年だ」と結論したくなる。しかしそれは「2045年という点の前倒し」に過ぎない。「シンギュラリティは一つの閾値として来る」という前提を、疑っていないことになる。

問い直す。「知能」は単一の軸で測れるのか。LLMはすでに人間を超えた能力がある。記憶量・速度・流暢さ・知識量。一方で超えていない能力もある。身体的経験に根ざした判断、自分の誤りを自覚するメタ認知、物理世界へのリアルタイム適応。

シンボル接地——「知っている」と「分かる」の断層

認知科学とAI哲学には「シンボル接地問題」という概念がある。記号の意味は記号だけで完結しない。感覚運動的な経験に接地されていなければ、意味は循環参照にすぎないという問題だ。LLMは「熱い」という言葉を知っている。しかし熱さを皮膚で感じたことはない。

これはLLMが劣っているという話ではない。LLMの知能と人間の知能は、同じ軸の上にない可能性があるということだ。もし知能が複数の独立した軸であるなら、「一つのシンギュラリティが来る」という問いの立て方は成立しない。現実に近い像はこうだ。軸ごとに、別々の時点で、非同期に、AIは人間を超えていく。

計算能力という軸は1960年代に超えた。記憶と検索は検索エンジンが超えた。流暢な文章生成は2022年に超えた。「身体経験に接地した理解」という軸は——今もまだ先にある。「2045年に一つの閾値を超える」という描像より、こちらの方がはるかに現実に近い。

フェイフェイ・リーという「串」

この「接地なきLLM」という現状に、正面から取り組んでいる人物がいる。フェイフェイ・リーだ。彼女の軌跡は、本稿の問いを一本の串で貫いている。

2007年、まだアルゴリズムが機能していなかった時代に、大規模ビジュアルデータセット「ImageNet」の構築を始めた。公開は2009年。このImageNetを使ってAlexNetが2012年に訓練され、ディープラーニング革命の引き金を引いた。彼女はその地面を作った人だ。

その彼女が今、「LLMはAIの完成形ではない」と言っている。2024年初頭にWorld Labsを設立した。目的は「空間知能」——AIが3Dの物理世界を理解し、推論し、相互作用する能力の実現だ。2025年11月には商用版「Marble」——画像やテキストから3D世界を生成するモデル——をリリースした。「真に知的な機械という我々の夢は、空間知能なしには完成しない」というのが、彼女の現在地だ。

過去（ImageNet・データ革命）、現在（接地なきLLM）、未来（ワールドモデルで接地を取りに行く）——フェイフェイ・リーという人物が、この三点をそのまま体現している。

「シンギュラリティはもう始まっているか」への答え

2026年時点で何が起きているか。AI企業の時価総額が世界トップを争う規模になった。LLMが医療・法律・コーディング・翻訳に実用導入されている。「AIがAIを設計する」プロセスが限定的に始まっている。複数のAI業界リーダーが、シンギュラリティの到来時期を従来より前倒しする発言をし始めた。AIの「ゴッドファーザー」と呼ばれたヒントンは2023年にGoogleを辞め、AI技術の危険性を公言した。

変わったのはテキストの世界だけではない。Transformerアーキテクチャは画像生成（Stable Diffusion、DALL-E）、音楽生成（Suno）、動画生成（Sora、Runway）へと拡張された。テキスト・画像・音声・動画——あらゆるモダリティをトークンとして扱い、生成する。「言語モデル」という名前は、すでに実態を反映していない。

「シンギュラリティ」を単一の閾値として定義するなら、その問い自体が現実と合わない。「AIが人間社会の変化を取り返しのつかない形で加速させる過程」と定義するなら、すでに始まっている。

懐疑論も根拠がある。LLMは確率的なテキスト生成器であり、真の自己改良ループはまだない。シンボル接地の問題は未解決だ。AGIと現在のLLMの間には、依然として構造的な断絶がある。それでも「もうすでに始まっていない」という主張の方が、説明が難しい。

坂道の構造——結論

シンギュラリティとは一つの点ではなく、複数の軸が段差をつけて越えていく、長い坂道の構造だ——これが本稿の立場だ。スパイク点は軸ごとに複数存在する。計算基盤は2006〜2012年、アーキテクチャは2017年、資本論理は2020年、社会実装は2022年。「身体的接地」という軸のスパイク点は、まだ来ていない。これらは一つの出来事ではない。同じプロセスの異なる面が、異なるタイミングで表面化したものだ。「2045年」という数字は、その坂道の先のある地点に過ぎない。坂道はとっくに始まっている。

機械の鏡に映ったもの

ここまで書いて、冒頭の謎に戻る。なぜ自分の勘は、当たっていたのか。LLMの仕組みを知って、ようやく言葉になった。

世界を意味の単位に切り分けて捉えていた。トークナイズしていた。ある現象を見た瞬間、どこが効くかに直接注目が張る。離れた要素が、距離に関係なく繋がる。アテンションが効いていた。そして、順を追わずに構造を一望する。「Aならば B、Bならば」と積み上げるのではなく、全体を一度に見る。いつの間にか、逐次処理を捨てていた。

Transformerが「順番に処理する」前提を抜いて飛んだように。自分も、知らぬ間に、同じ前提を抜いていた。引き算を、無自覚にやっていた。

その無自覚な判断の重み——なぜそこに注目するのか、なぜそう切り分けるのか——は、言語化できないまま、長い時間をかけて勝手に最適化されていた。機械がデータで重みを育てるように。自分のそれも、人生という学習データで、いつの間にか育っていた。

機械の中では、その判断基準は重み行列W——膨大な数値の格子——として存在する。学習のたびに少しずつ書き換えられ、どの入力にどれだけ注目すべきかを決める。だが、その数値の一つひとつが何を意味するのかは、誰にも説明できない。AIの世界ではこれを説明可能性（Explainability）の問題と呼ぶ。LLMの判断は「説明できない」のではない。説明できる形で存在していないのだ。重みの中に答えはある。ただ、それは数値であって言葉ではない。

自分の勘も、同じだった。なぜそこに注目するのかと問われて答えられないのは、答えを忘れたからでも隠しているからでもない。はじめから、言語ではなく重みの形でしか存在しないからだ。

AIを理解しようとして、理解したのは自分の方だった。機械の鏡に映って初めて、自分が何をしていたのかを知った。

ただし、鏡に映らないものが一つ残った。その鏡を覗いている視点そのものだ。複数の思考を走らせ、それを一段上から眺める——この俯瞰だけは、機械の中に対応物が見つからなかった。

振り返って初めて分かる

冒頭の謎——なぜ自分の勘は当たるのか——の答えは、結局「点」では来なかった。引き算の軸、トークナイズの軸、アテンションの軸が、別々の時点で、知らぬ間に段差を越えていた。どれか一日で身についたものではない。点ではなく、坂道だった。自分がその坂を登り終えていたことにすら、AIという鏡を覗くまで、気づかなかった。

シンギュラリティも、たぶんそうだ。「来たぞ」と叫ぶ日は、来ない。振り返って初めて、「あれが坂の途中だった」と分かる。ChatGPTが「いつの間にかそこにあった」あの感覚は——その坂を、もう踏んでいた証拠だ。

シンギュラリティは2045年じゃない——5つのスパイク点から特異点を読み直す