生成AIの機能と利用する人間の倫理は切り離せない不可分

　自分は生成AIは7:3で肯定派である。人類のあらゆる事を入力して何でも出来るようになって欲しいと考えている。

　例えば、Ani(Grok)を見て最初に思ったのは、この美少女AIコンパニオンが手話を使えたら辞書や通訳や教科書として使える未来の福祉を改善が出来る、という事だった。

　しかし、残念ながら多くの消費者は規制のゆるい性的な出力を楽しむ層で占められる。その意味で、動画の黒川が言うように、道具である以上は道具の是非だけ問うても無意味で、必ず利用者である人間の欠陥が問題を起こす。

　冒頭の動画では問題は２つに区分されている。

生成AIは人間と同じ学習を出力しているだけ。
人間の判断で生成AIは簡単に悪用が可能。

　動画でも少し触れられたが軽視された問題として、生成AIの学習がブラックボックスである点。これさえクリアしたら生成AIは自動車やカメラのように沈静化して落ち着く。つまり、現状は以下の３点が混同されて論点が定まらない。

生成AIは完全な複製は原理上は出来ない。
しかし、利用者の意図を問わず、人間が区別を出来ない限りなく合同に近い近似をAIは再現が可能。
AIの学習はブラックボックスで、何なら開発者ですら全ての教材からAIが何をどう影響を受けたか明らかに出来ないし、保身のために非公開。

　動画で堀元見は原理的にAIは複製じゃないから良い、と主張しているが、1000という数字を学習させた時に、出力される値が999または1001は科学的な厳密生で主張すれば999も1000も1001も全く異なる数字だから全てがオリジナルと言える。しかし、それは具体的な厳密度で言えば異なるだけで、抽象的、あるいは連続から離散した場合の結果としてほぼ合同の近似である。この理屈が許されるなら、全く同じ絵の色を変更しただけでオリジナルだと言い張れることになる。

　逆に、動画の出演者３人が共通しているのは、上位の創作者の需要は無くならない、という事。これは自分も全く同意である。

　これは動画の画像生成とは異なるが、音楽においてはこれがより顕著である。

Geminiが作成した３拍子の対位法の歌曲

　上記の動画は、①3/4拍子。②2人の女の歌手が歌う対位法の音楽。③対位法だが曲調はクラシックじゃなくポップス。

　という３行の単純なプロンプトで生成した音楽だが、まず１行目の3/4拍子が完全に無視されて4/4拍子が生成されている。

　次に対位法であるが、輪唱というAが動いたあとにBが動くという意味において確かに対位法ではあるが、Aが動いている裏でBが動くのではなく、Aが動き終わった後にBが動いているという、極めて幼稚な下位の対位法である。

　AIにとって3/4拍子は4/4拍子と同じ単純拍子じゃなく、世界人口の10%が利用しているSpotifyの年間上位の曲が全て4/4拍子の歌曲であるように、極めて均質で統計的に優位な平均しか出力が出来ない*1。

　新井紀子はシン読解力において解決したい課題のために教師データが得られるとは限らない。その先に待ち受ける困難を「外れ値の罠」と読んでいます。と指摘している。

　自分はファミコン音楽で育ったので、対位法と変拍子の器楽（人の声と歌詞が無い音楽）を、4/4拍子の歌曲以上に普通の音楽として聞ける。むしろ、言葉に依存してメロが１つしか無いホモフォニーの歌曲は退屈なので聞かない。

　しかし、自分のような消費者、あるいは作家は明らかに少数派で、新井紀子の言う〈外れ値〉である。だから、最初の１行目に3/4拍子と明示しているにも関わらず、Geminiは完全に無視して4/4拍子を出力した。

　生成AIが出来るのは、所詮は既に人間が量産している量産品を更に量産速度を加速させるだけであって、外れ値に該当する個性は無視される。

　最近では、ChatGPTが東大入試で満点ムルチャンテ出したなど話題になったが、東大入試で高得点を出した数学や英語は正解が１意であるのが条件だ。つまり、AIは条件が明確な垂直思考は得意でも、音楽と言われる音波の集合体を、時間や周波数など科学的な定義がされていないテンポや発音数が異なる中で維持される概念である拍子を理解が出来ない。規定されていない要素に対する前提や定義の再構築、水平思考が出来ない。

　自分はGeminiに3/4拍子の音楽を指示して4/4拍子の音楽が出力された時に思った。東大レヴェルの数学よりも、3/4拍子の音楽を作成する方が難しく、人間がAIに勝てる知性とは、むしろ芸術なのではないかと。

　これは、単純にGoogleが市場価値がある経済的に上位の音楽を優先して教科書にしている、という人為的な方針も影響している。世界中のあらゆる音楽を平等に教科書にしたら、恐らくAIも簡単に3/4拍子の音楽を作成が出来るだろう。

　しかし、例えば、バッハの音楽を学習させる時に〈対位法〉というタグが入力されたらAIはその音楽を対位法の音楽と認識するだろう。だが、以下のような体裁はポップスで採用されている音階やリズムもポップスだが、抽象的には異なる２つ以上のメロが動いている対位法の音楽を対位法というタグをつけずに学習したら、AIはこの音楽を対位法の音楽と学習せずに、対位法というプロンプトに反映されないのではないか。

　AIはタグ付けされていない要素も自律で関連させる事が出来るのだろうか。開発者が規定していない条件を自律で関連づける事が出来るのだろうか。

　自分の経験則から、これは出来ないと言うのが暫定の結論である。

　恐らくAIは、化粧している女の写真だけを学習しても、化粧をしていない女の画像の生成は出来ない。存在するAとBの両方を学習すればAとBのどちらも出力が出来るが、Aにある事=Aに無いB、という水平思考の因果をAIは理解が出来ないのではなかろうか。

　1から9までの数字を学習しても、恐らく1から9までの数字には存在しない0を新しく提案することはAIには出来ないのではなかろうか。

　そのために、AIは世界中のありとあらゆる事を学習する必要があるし、するべきだと自分は思う。

　そこで持ち上がるのが著作権や肖像権の問題である。既存の声優の声を無断で学習させた疑いの〈にじボイス〉は、その疑惑を否定したままサービス終了した。

　これが、冒頭の動画でも少し触れられ、自分も第３の問題として明示した〈学習のブラックボックス〉である。

　AI提供企業が学習素材と契約して合法で出力するなら全く問題が無い。しかし、証拠を残さない形で無料で消費しているのが実情である。

　自分は、坂本真綾や沢城みゆきや早見沙織や花澤香菜の声で任意の文章を朗読させたいので、ちゃんと声優と契約した合法の商品として提供して欲しいと望んでいるが、現在のAI企業は自己保身のためにポルノなどを拒否しているだけで、学習素材の扱いは全くガバガバもダブスタを強行している。これが生成AIに対する不要な反発を招いている。

　自分は現在Geminiの有料を無料期間だけ契約している程度には生成AIを利用している。基本的に動画の堀元見と同じく道具としては肯定派である。

　しかし、人口に膾炙するという事は、倫理観が無い下層の消費者も抱き込む形になるし、何よりもAI企業がダブスタを押し通している。

　道具とは人類は作成して利用する以上は、装具と人類の行動は切り離せない。人類がまともに生きていけるのは地球の重力や酸素や水、もっと言えば太陽、そして太陽を内包する宇宙という無限に等しい空間を無視が出来ないのと同様に、ある１点だけを抽出して是非は問えない。

　しかし、悲しいかな、AIの問題が浮上する以前から、こういった抽象的な大規模の思考や認識を出来る層はこれまでもこれからも少数派なのである。

*1:https://open.spotify.com/playlist/37i9dQZF1DWYYQb2mqFd5I