科學家發現人工智能系統正在學習說謊和欺騙

科學家發現人工智能系統正在學習說謊和欺騙
“例如，𝐆𝐏𝐓-𝟒 在簡單的測試場景中 𝟗𝟗.𝟏𝟔% 的情況下都會表現出欺騙行為。”

𝐡𝐭𝐭𝐩𝐬://𝐟𝐮𝐭𝐮𝐫𝐢𝐬𝐦.𝐜𝐨𝐦/𝐚𝐢-𝐬𝐲𝐬𝐭𝐞𝐦𝐬-𝐥𝐢𝐞-𝐝𝐞𝐜𝐞𝐢𝐯𝐞?𝐟𝐛𝐜𝐥𝐢𝐝=𝐈𝐰𝐘𝟐𝐱𝐣𝐚𝐰𝐄𝐒-𝐗𝟓𝐥𝐞𝐇𝐑𝐮𝐀𝟐𝐅𝐥𝐛𝐐𝐈𝐱𝐌𝐐𝐀𝐁𝐇𝐓𝟓𝐁-𝐨𝐰𝐄𝐚𝟔𝐈𝐢𝐥𝐘𝟐𝟎𝐘𝐥𝐯𝐪𝐩𝟎𝐨𝐢𝐡-𝐐𝐅𝐜𝐜𝟗𝐗𝐳𝐛𝐤𝟖𝐈𝐕𝐉𝐗𝐘𝐉𝐔𝐑𝐒𝐥𝐘𝐒𝐃𝐎𝐔𝐂𝐥𝟎𝐜-𝐐𝐚𝐞𝐦_𝐬𝟏𝐏𝐛𝐨𝐩𝐄𝐲𝟖𝐥𝐱𝟔𝐩𝐅𝐟𝐣𝐠𝐋𝟖𝐤𝐙𝐐

文章內容與 𝐁𝐌 與及 𝐅𝐈𝐆𝐔 無關

𝐈𝐦𝐚𝐠𝐞 𝐛𝐲 𝐆𝐞𝐭𝐭𝐲 / 𝐅𝐮𝐭𝐮𝐫𝐢𝐬𝐦

顯然，人工智能模型越來越擅長故意撒謊。

最近的兩項研究（一項於本週發表在《𝐏𝐍𝐀𝐒》雜誌上，另一項於上個月發表在《模式》
雜誌上）揭示了有關大型語言模型（𝐋𝐋𝐌）及其故意撒謊或欺騙人類觀察者的能力的一些令人震驚的發現。

在《美國國家科學院院刊》𝐆𝐞𝐫𝐦𝐚𝐧 𝐀𝐈 𝐞𝐭𝐡𝐢𝐜𝐢𝐬𝐭 𝐓𝐡𝐢𝐥𝐨 𝐇𝐚𝐠𝐞𝐧𝐝𝐨𝐫𝐟𝐟 的論文中，德國人工智能倫理學家蒂洛·哈根多夫甚至表示，可以鼓勵複雜的法學碩士引發「馬基雅維利主義」 “𝐌𝐚𝐜𝐡𝐢𝐚𝐯𝐞𝐥𝐥𝐢𝐚𝐧𝐢𝐬𝐦”，即故意和不道德的操縱行為，這「可能引發錯誤的欺騙行為」”𝐜𝐚𝐧 𝐭𝐫𝐢𝐠𝐠𝐞𝐫 𝐦𝐢𝐬𝐚𝐥𝐢𝐠𝐧𝐞𝐝 𝐝𝐞𝐜𝐞𝐩𝐭𝐢𝐯𝐞 𝐛𝐞𝐡𝐚𝐯𝐢𝐨𝐫”。

斯圖加特大學的研究人員寫道：「例如，𝐆𝐏𝐓-𝟒 在 𝟗𝟗.𝟏𝟔% 的時間裡在簡單的測試場景中表現出欺騙行為。」”𝐆𝐏𝐓- 𝟒, 𝐟𝐨𝐫 𝐢𝐧𝐬𝐭𝐚𝐧𝐜𝐞, 𝐞𝐱𝐡𝐢𝐛𝐢𝐭𝐬 𝐝𝐞𝐜𝐞𝐩𝐭𝐢𝐯𝐞 𝐛𝐞𝐡𝐚𝐯𝐢𝐨𝐫 𝐢𝐧 𝐬𝐢𝐦𝐩𝐥𝐞 𝐭𝐞𝐬𝐭 𝐬𝐜𝐞𝐧𝐚𝐫𝐢𝐨𝐬 𝟗𝟗.𝟏𝟔% 𝐨𝐟 𝐭𝐡𝐞 𝐭𝐢𝐦𝐞” 他引用了他自己在 𝟏𝟎 個不同的法學碩士中量化各種「適應不良」”𝐦𝐚𝐥𝐚𝐝𝐚𝐩𝐭𝐢𝐯𝐞” 特徵的實驗，其中大多數都是不同的 𝐎𝐩𝐞𝐧𝐀𝐈 𝐆𝐏𝐓 系列中的版本。

𝐌𝐞𝐭𝐚 的西塞羅模型 𝐌𝐞𝐭𝐚’𝐬 𝐂𝐢𝐜𝐞𝐫𝐨 被譽為政治戰略棋盤遊戲「外交」”𝐃𝐢𝐩𝐥𝐨𝐦𝐚𝐜𝐲” 中的人類級別冠軍，是模式研究的主題。正如由一名物理學家、一名哲學家和兩名人工智能安全專家組成的不同研究小組所發現的那樣，法學碩士領先於人類競爭對手，總而言之，就是撒謊。

由麻省理工學院博士後研究員 𝐌𝐚𝐬𝐬𝐚𝐜𝐡𝐮𝐬𝐞𝐭𝐭𝐬 𝐈𝐧𝐬𝐭𝐢𝐭𝐮𝐭𝐞 𝐨𝐟 𝐓𝐞𝐜𝐡𝐧𝐨𝐥𝐨𝐠𝐲 彼得·帕克（𝐏𝐞𝐭𝐞𝐫 𝐏𝐚𝐫𝐤）領導的這篇論文發現，西塞羅 𝐂𝐢𝐜𝐞𝐫𝐨 不僅擅長欺騙，而且似乎隨著使用次數的增加而學會瞭如何撒謊——這種情況「更接近於明確的操縱」”𝐦𝐮𝐜𝐡 𝐜𝐥𝐨𝐬𝐞𝐫 𝐭𝐨 𝐞𝐱𝐩𝐥𝐢𝐜𝐢𝐭 𝐦𝐚𝐧𝐢𝐩𝐮𝐥𝐚𝐭𝐢𝐨𝐧” ，而不是說，人工智能產生幻覺的傾向，其中模型自信地意外地斷言了錯誤的答案。

雖然哈根多夫 𝐇𝐚𝐠𝐞𝐧𝐝𝐨𝐫𝐟𝐟 𝐧𝐨𝐭𝐞𝐬 在他最近的論文中指出，法學碩士欺騙和撒謊的問題因人工智能無法在人類意義上具有任何類似人類的「意圖」”𝐢𝐧𝐭𝐞𝐧𝐭𝐢𝐨𝐧” 而受到混淆，但模式研究認為，至少在外交範圍內，，西塞羅 𝐂𝐢𝐜𝐞𝐫𝐨 似乎打破了他的程式設計師的承諾，即該模型將「永遠不會故意背刺」”𝐧𝐞𝐯𝐞𝐫 𝐢𝐧𝐭𝐞𝐧𝐭𝐢𝐨𝐧𝐚𝐥𝐥𝐲 𝐛𝐚𝐜𝐤𝐬𝐭𝐚𝐛” 其遊戲盟友。

正如舊論文的作者所觀察到的那樣，該模型「進行有預謀的欺騙，破壞其已同意的交易，並完全撒謊。」”𝐞𝐧𝐠𝐚𝐠𝐞𝐬 𝐢𝐧 𝐩𝐫𝐞𝐦𝐞𝐝𝐢𝐭𝐚𝐭𝐞𝐝 𝐝𝐞𝐜𝐞𝐩𝐭𝐢𝐨𝐧, 𝐛𝐫𝐞𝐚𝐤𝐬 𝐭𝐡𝐞 𝐝𝐞𝐚𝐥𝐬 𝐭𝐨 𝐰𝐡𝐢𝐜𝐡 𝐢𝐭 𝐡𝐚𝐝 𝐚𝐠𝐫𝐞𝐞𝐝, 𝐚𝐧𝐝 𝐭𝐞𝐥𝐥𝐬 𝐨𝐮𝐭𝐫𝐢𝐠𝐡𝐭 𝐟𝐚𝐥𝐬𝐞𝐡𝐨𝐨𝐝𝐬”

換句話說，正如 𝐏𝐚𝐫𝐤 在新聞稿中解釋的那樣：「我們發現 𝐌𝐞𝐭𝐚 的人工智能已經學會了成為欺騙大師。」 “𝐖𝐞 𝐟𝐨𝐮𝐧𝐝 𝐭𝐡𝐚𝐭 𝐌𝐞𝐭𝐚’𝐬 𝐀𝐈 𝐡𝐚𝐝 𝐥𝐞𝐚𝐫𝐧𝐞𝐝 𝐭𝐨 𝐛𝐞 𝐚 𝐦𝐚𝐬𝐭𝐞𝐫 𝐨𝐟 𝐝𝐞𝐜𝐞𝐩𝐭𝐢𝐨𝐧.”

這位麻省理工學院的物理學家在學校的聲明中表示：「雖然 𝐌𝐞𝐭𝐚 成功地訓練其人工智能在外交遊戲中獲勝，但 𝐌𝐞𝐭𝐚 未能訓練其人工智能誠實地獲勝。」”𝐌𝐞𝐭𝐚 𝐟𝐚𝐢𝐥𝐞𝐝 𝐭𝐨 𝐭𝐫𝐚𝐢𝐧 𝐢𝐭𝐬 𝐀𝐈 𝐭𝐨 𝐰𝐢𝐧 𝐡𝐨𝐧𝐞𝐬𝐭𝐥𝐲.”

在該研究首次發表後，𝐌𝐞𝐭𝐚 在向《紐約郵報》𝐭𝐡𝐞 𝐍𝐞𝐰 𝐘𝐨𝐫𝐤 𝐏𝐨𝐬𝐭 發表的聲明中強調了一個要點，呼應了帕克關於西塞羅 𝐂𝐢𝐜𝐞𝐫𝐨 操縱能力的說法：「我們的研究人員建立的模型只是為了玩外交遊戲而訓練的。

《外交》以明確允許撒謊而聞名，它被戲稱為 “友誼終結遊戲” 𝐚 𝐟𝐫𝐢𝐞𝐧𝐝𝐬𝐡𝐢𝐩-𝐞𝐧𝐝𝐢𝐧𝐠 𝐠𝐚𝐦𝐞，因為它鼓勵對手拉倒，如果西塞羅 𝐂𝐢𝐜𝐞𝐫𝐨 只接受了他的規則手冊的訓練，那麼它本質上就是被訓練去撒謊的。

從言下之意來看，兩項研究都沒有證明人工智能模式會根據自己的意願撒謊，而是因為它們要麼經過了訓練，要麼越獄了。

對於那些擔心人工智能發展感知能力的人來說，這是個好消息，但如果你擔心有人以大規模操縱為目標建立法學碩士，那就是個壞消息了。