環境側から人やロボットといったエージェントを制御する「空間AI」の文脈において、あらゆる情報を統合する空間には果たして主観的な意識のクオリアが宿るだろうか? 著書『AIに意識は生まれるか』を上梓したAI研究者の金井良太と、建築情報学の視点から空間コンピューティングを拡張する建築家・豊田啓介の見立てとは。
金井 クオリア1とは何かというと、例えば赤の「赤らしさ」とか、脳が情報を処理したときに、文字を見て漢字として認識して意味がわかる感じとか、針が手に刺さったら「痛っ」てなるのも、神経細胞が反応しているだけだけれど、当人にとっては痛いという感覚になりますよね。その主観的に感じる感覚のことをクオリアと言っています。
統合情報理論2という意識の理論によると、クオリアというのは何らかの情報の塊のことだろうとされています。もし情報なのであれば、人工知能(AI)でも大規模言語モデル(LLM)に文章を入れたらあたかも何か理解しているように返答してくれるので、そこでは何らかの情報の処理が行なわれていますよね。そういう意味で、AIにクオリアが宿ってもおかしくないというのが、いまAIと意識の業界で話題になっていて、ぼく自身は、情報が発生していて何らかの統合がなされていたら、そのなかでクオリアが発生している可能性はあると思っています。
豊田 それは必ずしも人間と同じクオリアではないだろうということですね。
金井 まさにそこはすごく重要なところで、普段、何かに意識があるかどうかを考えるときに、人間の意識を中心にして考えてしまうのですが、人間には人間の意識があって、動物には動物の意識があって、AIにはAIの意識があって、そこは相互にわからないものとして考えていいと思うんですね。だから、AIが意識をもっているとしたら、人間の意識とは全然違うものかもしれない。
AIと意識の研究がおもしろいのは、AIは脳と違って中が完全にわかるんです。よくブラックボックスだと言われますが、すべてのつながり方がわかっているし、何か実験しようとすれば何億回でも簡単にできる。脳ではそれはできなかったし、動物の意識を研究するときに難しいのが、動物は何を感じているかを話せないんですね。人間はいままで人間としか話せなかったとすると、AIは人間にとって会話ができる唯一の別の知的存在だとも言えるわけです。
豊田 ノンヒューマンエージェント(NHA)ですね。
金井 まさにそうです。だから、意識の研究において新しい方法が生まれてきているんです。
主語は人間か空間か
豊田 ぼくはもともと建築家だというのもあって、環境側の記述が専門です。建築はどうしても環境を人間の視点でつくるものなので、当然主語は建築側にないんですが、空間や建築の記述をやっているうちに、建築側に主語があるとどうなるのかに興味がどんどん移ってきて、いま「コモングラウンド3」というテーマで大学で研究もしています。
人間の周りで人間と共存するNHAと呼ばれるロボットだったりバーチャルな存在だったりは空間の認識がまだ苦手なのですが、空間の形状や属性の記述方式をあらかじめ共通化しておくことで、人間と共通の基盤をもたせることができるんです。そうして空間の中に多種多様なエージェントが混在するようになると、空間が共通化された情報を主体的に処理・調整してみんなに配信する調整役にならざるをえなくなります。空間にかかわるエージェントごとのAPI連携の組み合わせが指数関数的に増えてしまうのではなく、どんなエージェントも空間にアクセスしさえすれば空間側が調整してくれるようになり、結果として当初は環境としての役割だった空間が、どんどん主語として身体性をもたざるをえなくなっていく。つまり、空間AIになってくるんだという話をいま研究しています。
今年、Apple Vision Proが出てきて「空間コンピューティング」「空間AI4」と言われるようになりました。それはすごく大事なステップだと思うものの、まだ、人間もしくはエージェント視点で空間をどう認識・処理するかということしかやっていないと思います。空間自体の身体性や、周辺との相対的な理解や主体的な行為という部分はあまりやっていないんです。そこは環境側がもう少し踏み込めるんじゃないかと思うし、主語が人間か空間かによって、空間コンピューティングや空間AIというのはまったく違うものになると考えています。
金井 空間コンピューティングとクオリアというテーマを考えると、そこには2種類あると思うんです。人間側が空間をどう認識しているかということと、空間自体がクオリアをもつことができるのか、ということです。いま豊田さんがおっしゃったのは、後者のお話ですね。実は以前、家に意識をもたせることができるかというプロジェクトをやったことがあるんです。センサーがたくさんついた家自体が人間を認識する。つまり家自体がエージェントになるわけです。AIに意識をもたせようとしたときに、必ずしも人のようなものではなくてもいいと思うんです。
豊田 そういった環境に宿るAIに身体性は要ると思いますか? さらに言えば、身体性が固定されていなければならないでしょうか? つまり、ある部屋のAIがほかの部屋に移ってもAIとしてちゃんと機能してぼくらとコミュニケーションできるのか、ということです。『攻殻機動隊』の少佐のように完全にネットに溶けてしまえば身体性はないですよね。ぼくはああいったエージェントがアイデンティティをもちうるとは正直思えなくて。
金井 身体性というと、物理的な身体という観点もありますが、一方でアクションができることが大事だと思うんですね。ただ観察してすべてを認識するだけではなくて、その空間の中にいる人に働きかける。音を鳴らすとか空調をかけるとか、それしかできなくても、インタラクションがあるという意味では抽象化された身体性だと言えます。こうしたインタラクションがないと、現実をうまく認識できないんです。AIの機能を上げていくなかでも、新しい知識を得るためにアクションが必要だという要素があります。だから、自分からどんどん学んでいくような目的をAIに与えると、ある種の自発性といったものが勝手に生まれてくる可能性はあると思います。
豊田 金井さんの著書『AIに意識は生まれるか5』にもありましたが、いろいろなセンサーから情報が入ってきたときに、時間的、位置的な情報のキャリブレーションをどうするのか、それを統合しない限り、何かしら意識に近いもの、もしくはクオリアのようなものは生まれない、というのがぼくのざっくりとした理解です。では、そういうものを建築物に実装する可能性があるのかというとどうなんでしょう。
金井 空間の側が人間を理解しようとする過程でそういうものが出てくる可能性はあると思うんですね。例えば、一人ひとりについての膨大なデータができてくるわけですが、あのときあの人はこういうことやっていたとか、だからこの人は今日は何が食べたいんだろうといった予測をするために、さまざまな長期記憶ができてくる。あともうひとつ、やはり実際に対象に働きかけないと本当の理解はできないので、質問をする必要があると思いますね。
豊田 フィードバックループ(再帰性)が要るということですね。
金井 適切な質問をすることでもっと新しい知識を得ていくし、自発性が出てくるんですね。AIの業界でも好奇心をどうやって実装するかという話がたくさんあります。それは、できたらおもしろそうというだけではなく、科学的プロセスを自動化するとか、AIが自ら新しい発見をするためにも必要な要素で、実装できる目処がもう立っている。
失われた「時間性」
豊田 金井さんは著書のなかでもLLMについて、あれは一方向であって、フィードバックループがないと意識にはならないと書かれていました。でもいま、クオリアを生成するような大規模な量を扱おうとすると、LLM的なものにどうつなげるかということになる気がします。そこに意識を宿らせる可能性があるとすれば、どんな手法になりえるんでしょうか。実空間のさまざまなセンサーデータをLLMと接続させれば何かしらの意識みたいなものが生まれて、それをアウトプットできる可能性があるのか、あるいはAIの次のブレイクスルーが必要で、いまのLLMでは自律的なものになりえないのでしょうか。
金井 画像や音声などマルチモーダルにデータの種類を増やして共通の潜在空間6で統合するということは、やられ始めています。おそらくそこにまだ足りないのは、時間的な継続性だと思います。いまの自分と1秒後の自分が同じだといったことです。自分の内部状態があって、それが次の時間の自分への入力になっているという再帰的なダイナミクスが大事だと思うんですね。
豊田 ある独立した領域が自分であるとして、その継続性を常に担保するということですね。
金井 いまのLLMは時間性があまりないですよね。いま流行っているTransformer7というAIモデルの論文タイトルは「Attention Is All You Need」で、Attentionだけあれば再帰性は要らないことに開発者たちが気づいたことで生まれました。つまり時間性が失われてしまっているんです。ぼくは、再帰性を取り入れて時間的継続性を獲得させれば、もう少し自己のようなものがつくれるんじゃないかと思います。
豊田 むしろ時間性を考えないといけない。その結果として自己という領域性が生じるという話ですね。建築でいうと、空間の絶対記述とか静的記述の体系はどんどん出てくるものの、時間の概念がそこにはない。でも空間記述を突き詰めていくと、時間記述の概念がないとどうやっても人間側とのやりとりができないと感じていて。空間を扱うために時間概念の解像度を高めることがますます必要になってきているんです。
もう一点、建築におけるBIMやGISやCIM8は空間をどこも等しく正確な、絶対座標系として記述してしまいます。一方で観測者由来の相対記述系も必要だろうと思っていて。遠くなら解像度が落ちるし、誤差やあいまいさをむしろ積極的に許容するから、観測者の数だけ自分の周辺の記述があって、そこにむしろズレがあってもいいという記述系がないと、実世界で建物の原点がすべて一緒ということはそもそもないわけなので。
建築や土木では絶対系が担保する「変化しない」という正しさが価値だけれども、動的記述系では相対記述に変換をしないと、おそらく実社会を扱えない。その点で、場所のクオリアとは、主観的な場所というものがあって、その周りの世界をどう統合するかという話にもつながってきますよね。
金井 なるほど。ぞくぞくとくる話ですね(笑)。空間コンピューティングといったデジタルの世界で、われわれは絶対的座標を想定し過ぎだと思うんですよね。主観的な空間って必ずしもそういうものではなかったりして。例えば、現実世界とデジタルの世界をシームレスにつなごうとすると、現実性がすごく求められるんだけれど、いつか限界がきそうだなと。ある意味、主観的に十分合っているといったことが重要だと思うんです。
豊田 トポロジカルな理解というものを、ぼくらは意識せずにやっていますよね。例えば南の島に暮らす人々の海の地図はすごくトポロジカルだったりして、むしろあっちのほうが人間の感覚としては正しい部分もあるはずです。ぼくらはどんどん理知的な地図の記述を進め、絶対記述が正しいとなってしまうんですけれども、普段はおそらく両方を統合参照しているはずで、そういう合成系をちゃんとシステムに落とさない限り、NHAが人間と違和感なく会話することはできないんじゃないかと。あくまで感覚的な話ですが。
金井 例えばVision Proが実空間をインターフェイスとして使うときに、何で空間がいいかというと、人間が空間に対する直感をもっているからだと思うんです。その直感とクオリアは、すごく関係が深いんですね。初めて何かを学ぶとき、最初は理屈で理解していたものを、学習を通して直感的に理解できるようになることがあると思うんです。その直感的な理解にあたるものがクオリアだと思います。
空間には距離の情報とかさまざまな関係性といったとてもリッチな情報が埋め込まれていて、それをインターフェイスとして使うとすごくわかりやすくてすぐに理解できる。だから、直感的理解とクオリアが、空間コンピューティングの文脈だと非常に関係しているのだと思います。
物理空間はバグらない
金井 もうひとつ、今回お話しして改めて感じたのは、空間ってそもそもみんなが共有しているというのがおもしろい特徴だなと。
豊田 べたで固定された建築の側から情報技術のほうに入ってきて、デジタル技術に浸ったうえで一周回って最近痛感している価値は、物理空間が絶対バグらないということです。一方で、物理空間からメタバースへと一度振れて、それぞれが勝手に主観空間をつくって編集自由で開放された瞬間に、空間同期も時間同期もできなくなって、それが新しい価値だったりするわけです。でも物理空間は、そうした複合的な問題を否応なく統合してくれる。物理空間の計算力マジすげえって思うんです。
金井 それで言うと、いままでフィクションだった場所性が本物になるんじゃないかと感じます。神社とか教会の神聖さとか歴史は、体験している当人が主観的に投影しているものであって、つまり見る側にあるフィクションなんだけれど、今後、場所が本当に記憶をもって、歴史を語り始める可能性がある。そうなってくると、フィクションが現実になるんじゃないかと。
似たようなことで、人工的に天国とか地獄がつくられるんじゃないかとも想像するんです。ぼくは基本的に天国とか地獄は人間が想像で生み出したものだろうと思っているんですが、もしマインドアップローディングの技術が将来できて、死んだあとに天国とか地獄にバーチャルで行けることになってくると、つまり現実になるわけです。それこそ人工神様であっても本物のデータがあれば本物なんじゃないかとか。情報を扱う主体が人間だけに限らなくなって、空間とかさまざまなところに主体が現れてくると、いろいろなところに精霊が宿っている状態が具体的に実装されることになる。
豊田 めっちゃくちゃおもしろいですね。ぼく、本当は昔から建築になってみたくて。
金井 建築になる……。
豊田 自分が建築になったときに、じゃあ、入り口から人が入ってくるのは、口から入ってくる感覚なのか、肛門から入ってくる感じなのか。中でみんながパーティをやっているのはくすぐったいのか痛いのか、幸せと感じてるのか。何をもって建築は愛しいとか恋するとか感じているのか。そこには創発する感覚があるはずじゃないですか。それを人間の感覚に置き換えたときに、ぼくがいまこうしているのを、建築はどう感じているんだろう? といったことを一回感じてみたいんです。それをくすぐったいと感じるのか、甘いと名づけるのか。
金井 おもしろいですね。目の見えない人が音を聞いて、靴下の柄がわかるようになるらしいんですよ。そのときに、それは見てるような感じなのか、音を認識してるのかというと、やっぱり見ているようだって言うそうです。音でその視覚クオリアを獲得できるということは、ドアが開いたクオリアを身体で獲得できるかもしれない。空間クオリア、できるかもしれないですね。
ゲストに建築家の豊田啓介が登場!
人は“建物”になれるのか?:『WIRED』日本版 ポッドキャスト
脚注
※雑誌『WIRED』日本版 VOL.53 特集「空間コンピューティングの“可能性”」より転載。
雑誌『WIRED』日本版 VOL.53
「Spatial × Computing」
実空間とデジタル情報をシームレスに統合することで、情報をインタラクティブに制御できる「体験空間」を生み出す技術。または、あらゆるクリエイティビティに2次元(2D)から3次元(3D)へのパラダイムシフトを要請するトリガー。あるいは、ヒトと空間の間に“コンピューター”が介在することによって拡がる、すべての可能性──。それが『WIRED』日本版が考える「空間コンピューティング」の“フレーム”。情報や体験が「スクリーン(2D)」から「空間(3D)」へと拡がることで(つまり「新しいメディアの発生」によって)、個人や社会は、今後、いかなる変容と向き合うことになるのか。その可能性を、総力を挙げて探る!詳細はこちら。