AIの透明性とはなにか？

Inspiration is not traceable
Daruma Temple, Takasaki, Gunma, Japan
Leica M10P, 1.4/50 Summilux ASPH, RAW

いつだったか、映画her*1の主人公サマンサ（パーソナリティを持つAI）の声であった、女優スカーレット・ヨハンソンが、OpenAIが生み出す音声に酷似しているということでちょっとした揉め事になったことがあった。

www.wired.com

サム・アルトマン（OpenAIの発起人）はスカーレットに事前に打診したが、色々思案した上、彼女がNOといったにも関わらず、自分の声そっくりの声が使われていたからだ。

この一件は、「似ている」「依拠している」という問題の象徴的な例だ。

だが本質的な問いは、「どこまで似ているか」ではない。AI時代において、何をもって透明性が担保されたとみなすのかだ。

様々なテキストや画像、音声、動画などを生み出す生成AIが社会に浸透し、多くの人が依存するようになるようにつれ、AIの透明性議論が盛んになりつつある。

そのアウトプットが、特定のコンテンツに依存（依拠）している度合いがどのぐらいあるのか。これはコンテンツホルダー側としては権利問題に直結し、利用者側にとっても安心して使えるかどうかを左右する。

この論点が整理されない限り、生成AIの社会実装は広がっても、安心して使える基盤にはならない。これからの社会は、生成AIを所与（given）のものとして動いていく可能性が高い。極めて重要な問題だ。

一見すると、この問題は「そのアウトプットがどのコンテンツに依拠しているかを特定できるか」という問いに見える。しかし、それは表層的だ。

実際に起きているのは、人間同様に、いやむしろ人間以上に貪欲に膨大な情報を学習した生成AIが、その自らの意思ではなく、利用者の意思により、学習した内容を使いながらアウトプットを生成するという構造だ。

これは人間のオマージュや剽窃とは構造的に異なる。

人間と生成AIの違いは、少なくとも三つある。

第一に、AIは巨大な確率分布として学習しており、個々の着想の起源を自己申告できない。人間もまたインスピレーションの起源を説明できると感じることはあるが、それは多くの場合、後付けの解釈に過ぎない*2。AIの場合、その知識が分布として埋め込まれているため、この問題はより顕著になる。

第二に、学習した主体と出力を求める主体が分かれている。人間は自らの経験*3をもとに自発的に*4何かを生み出すが、生成AIは学習した主体と利用する主体が分離している。この非対称性が依拠性の議論を難しくする。

第三に、出力がプロンプトという外部入力に強く依存する。人間の場合はそもそも明示的なプロンプトもなく何かを生み出すわけだが*5、生成AIの場合は、入力条件によって出力が大きく変わる*6。

かつて深層学習において画像を識別するコンボリューション（畳み込み）的なモデルを触ると、人間における夢のような出力が実際には自発的に生み出しうるという話があったが、これと現在の生成AI出力の議論はだいぶ違う。

では、透明性はどのように担保されるべきなのか。現在の議論はやや極端だ。「元ネタを吐き出せ」「URLを示せ」という要求がなされることも多い。*7

しかし、これをそのまま制度要求とするのは現実性が低い。むしろ、「元ネタを完全に遡及できるはずだ」という前提そのものが、AIの構造と整合していない可能性がある。

これはデジタルマーケティング分野におけるattributionの困難性についての議論に近いが、モデルの巨大さと学習規模を考えれば、その困難性は桁違いだ。

また、人間の創作に対して完全な起源追跡可能性が求められたことは歴史上一度もない。にもかかわらず、AIにだけそれが要求されているとすれば、その正当化は極めて慎重に検討される必要がある。

そもそも、学習データを全て保持し、後から参照可能にするというモデル自体が現実的ではない。

Webのアーカイブ（魚拓サービスなど）ですら完全ではない。今後、Physical AI*8が進展し、リアルワールドの情報を継続的に学習するようになれば、その全履歴を保存することは不可能に近い。エッジ（端末側）のみで取捨選択しつつ学習しているものの全対象を取っておくということも当然ほぼ不可能だ。

（このPhysical AIが産業と競争の構造そのものをどう変えるかについては、以下のエントリで論じている。）

kaz-ataka.hatenablog.com

現実の研究・実務で行われているのは別のアプローチ、memorizationの検証だ。

すなわち、同様の条件やプロンプトのもとで、同一または極めて近い出力が再現されるか。既存コンテンツとの完全一致（exact match）が起きるかというような話だ。なお、Memorizationはあくまで閾値の設定であり、完全遡及とは次元が異なる。このようにアウトカムベースで判断するのが、現時点で最も現実的な方法だ。*9

人間におけるオマージュや影響関係を一定程度許容しながら、AIにだけ完全な起源追跡可能性を求めるのであれば、その差はどこにあるのかという説明が必要になる。

これを踏まえると、現実的な制度設計は次のような方向になる。

一つは、依拠性を確率的に評価することだ。すなわち、特定の作品への依存度をbinary（白黒）ではなく、段階的に評価する（例えば8〜16段階程度）。一定の閾値を超えた場合にのみ、著作権的な問題として扱う。

これは、AIの本質が確率分布である以上、自然な整理でもある。

依拠性の確率的評価が制度として機能するためには、より本質的な問題は別にある。

それは依拠性の哲学ではなく、それをどう運用するかという取引コスト（transaction cost）の問題だ。

人間の手による創作物*10は数が限られている。しかし生成AIのアウトプットは桁違いに多い。従来の個別判断・個別交渉型の仕組みは、このスケールでは成立しない。

必要なのは、個別証明ではなく統計的な把握、手作業ではなく自動化、個別交渉ではなく標準化だ。すなわち、APIベースで自動処理されるone-stop clearingの仕組みである。

ここでようやく見えてくる。問題は透明性（transparency）の有無ではない。

「何を開示するか（disclosure）」ではなく、「どの程度観測できるか（観測可能性：observability）」であり、さらに「どのように制御・運用できるか（operability）」だ。

ここでいう観測可能性とは、個別の起源を特定することではなく、出力の性質や再現性、依拠の度合いを統計的に把握できることを指す。

AI時代に必要なのは、「何を学んだか」を完全に遡及することではない。「何がどの程度再現されるのか」を現実的に観測し、必要な対価と制御を滑らかに回せる制度である。

透明性は、開示の問題から、観測と運用の問題へと移りつつある。

それは、AI時代において「何を知るか」ではなく、「何を制御できるか」が問われ始めているということでもある。

次の図は、この整理を模式的に示したもの（AI時代の透明性の再定義：Transparency Stack in the AI Era）だ。人間だけがアウトプットを生む時代とは、いかに異質な仕組みを用意せねばならないか、感じてもらえるのではないだろうか。

*1:この印象的な映画についてエントリを書いたことがあるのでよかったらご覧頂ければと思うkaz-ataka.hatenablog.com

*2:思いつきに近いものの場合、なんとも言えないものも多い。

*3:本のような生経験をした人の作品を通じる部分も多分にある

*4:あえて"意思"とは言わない

*5:とはいえ、試験の回答だけでなく、自力で言語的に課題設定できる人もいないわけではない

*6:通常何らかのプロンプト（実際にはコンテキスト的なものの読み取りも含む）をベースに出力する。

*7:追記：本ポスト公開後、透明性の定義についていくつか議論があったので補足しておく。いわゆるブロックチェーンや金融トランザクションのような「閉じた計算系」においては、検証可能性や不変性を基盤とする透明性は極めて有効であり、本質的な要件でもある。一方で、生成AIのように外界から継続的に情報を取り込み、学習と生成が分離された「開いた学習系」においては、完全な検証可能性を前提とすること自体が難しい。この違いを区別しないまま透明性を論じると、現実の構造と整合しない要求が制度として組み込まれるリスクがある。

*8:『現実世界で自律的に判断しながら動けるAIシステム』全般を指し、必ずしも『ロボット』とは限らない。生成AIが頭脳なら、Physical AIは頭脳だけでなく体も持ったAI。

*9:逆に学習したものを全部記録しておき、かなり難しい特定のoutputに対するattributionを出せというのは本来無理な話だ。

*10:油絵やスタジオで記録される音楽など