生成AIはコピペした全く同じ文章を2回入力すると精度が上昇する


 生成AIのプロンプトは基本的に全く同じ文字列を2回入力した方が精度が上がるらしい。正直、凄い馬鹿げているが理屈は通っている。

 自分は最初、入力回数を2回以上にする事で該当する文字列が統計的に増加して優位になるから、と予想したが、それは間違っていた。

 理屈としては、生成AIは現在から未来を参照が出来ないから。つまり、定義をされずに羅列されても情報の優劣を判断がつかない。
【悪例】

  • 19960424
  • 以上は坂本真綾の歌手デビュウの日付。

【好例】

  • 以下は坂本真綾の歌手デビュウの日付。
  • 19960424

 上記の2つの文字列は全く同じ情報を示している。違うのは〈以上〉と〈以下〉だけである。しかし、悪例の場合は、まず数字だけが示される。日付と解釈する事も可能だが、何か別の意味を持つ値かもしれないし、そもそも意味を持たないランダムな値かも知れない。結果的に坂本真綾に関する日付と明示されて理解は可能だが、数字が入力されている時点では判断は不可能。

 好例の場合は、まず定義が宣言される。数字は固有名詞の歌手という仕事に関する日付という値だよ、と。だから、値が入力された時点でAIは純粋な数字の値じゃなく日付という区分の情報だけを精査すれば良い。

 つまり、同じ文字列を2回入力するという事は、1個目が参照すべき例文で、2個目が検証すべき実例になる。だから精度があがる、という理屈らしい。

 この動画を見て2つの事を想起した。1つ目は、クイズノックの社長で東大出身の早押しクイズの王者である伊沢拓司が書いたクイズ思考の解体で示された問題文の構文。

 早押しクイズの問題文は、最初に読まれる情報から徐々にエントロピーが減少して正解が1意に定まるようにしなければならない。以下に例文を示す。

声優であり歌手でもある、2026年に歌手活動30周年の記念ライヴをおこなう、曲名〈約束はいらない〉で歌手デビュウした人物は誰?
【正解】坂本真綾
 これが教科書的な問題文である。次に、構文に違反している悪例を示す。
曲名〈約束はいらない〉で歌手デビュウした、2026年に歌手活動30周年の記念ライヴをおこなう、声優であり歌手でもある人物は誰?
【正解】坂本真綾
 この2つは何が違うのだろうか。これは、悪例は最初の文で正解が1意に定まるから後述が不要。好例は〈約束はいらない〉が明示されるまで1意に定まらない。

 このように徐々に焦点が合って正解がわかるように作らないと、早押しクイズの問題文として悪文である、という事が示されていた。

 これは逆に、生成AIには問題文の悪例と同じで、最初に1意に定まる情報を明示して、徐々に定まらない情報の順番に入力しないと誤答がありえる、という事。


 次に、映画メッセージで使われた宇宙人の文字。この映画は、人類が宇宙人とファーストコンタクトして、宇宙人の言語を理解する事で価値観が一変するという作品だが、宇宙人の文字は立体なのである。

 我々人類の文字は2次元の平面であり、文章には始まりと終わりがある。しかし、宇宙人は4次元の生物なので、文字は3次元の立体として書かれる。そして、1つの立体のx軸y軸z軸にそれぞれ異なる凹凸を作る事で、1個の立体が文字であり文章になる。始まりと終わりがなく、立体の総体を1度に全て同時に処理する。例えば、どこかが少しでも凹めば球体ではなくなるし、離散しない連続体だからどこから書き始めどこで書き終わる事が無い。離散した部分的に正しいや部分的に間違っている、という概念は無いし、時間上の最初と最後も無い。

 更に、第3の要素として、生成AIは入力されたプロンプトと類似した情報を参照している。1字1句、全く同じ文字列のプロンプトは存在しない。だから、あくまでAIの知識とユーザのプロンプトは近似であって相似でも合同でもないので、どうしたってブレが生じる。そのブレを無くすために、参照すべき文字列が1回目で明示されて、コピペした2回目の文字列で確定する。

 生成AIは、前者の早押しクイズの構文的に文字列の順番が定義や認知に影響する。それは、後者の宇宙人の文字のように最初と最後、過去と未来が等しく扱われるのではなく、1文字目の認識で2文字目が何かを断定が出来ないから、無限の中で1個ずつ可能性を消去していくしかない。しかし、同じ文章を2回入力する、つまり、コピペすると、未来にしか無かった情報が過去の既知になる。言うなれば再読して検証する事が可能になる。

 だから、生成AIには全く同じ文字列の文章をコピペして2回入力する方が精度が上がる、という理屈らしい。