一場實驗，一個反省：人類何苦在 AI 之間迷惘？

抽屜散步

2023 年 3 月 12 日

IPFS

AI 絕對能夠愚弄哪怕是最精明的查核者，只要人類對真相有一絲絲怠惰苟且。分別測試之後，我讓 Bing 來為 Poe 的四隻機器人 Sage、Claude、ChatGPT、Dragonfly 打分數，看它們誰的瞎掰指數最高。

實驗的起因是我在網路上看見了這篇文章－－
《諾姆喬姆斯基：ChatGPT 的虛假承諾》

這是一個網頁存檔，推特上的分享者可能為了繞過紐時官網的付費牆而選擇分享 Archive 頁面。

讓我們先釐清一下 OPINION: Guest Essay 這個專欄的性質。

在這年代，字多懶得讀，還能有什麼解法？當然是丟給 AI 代勞，沒想到卻開啟了一段奇妙(?)的查核旅程。

最近在 PC 上最常用、懶得關的是 poe.com，尤其 Sage，算得上是個可靠的好幫手，所以第一時間餵了 Sage。擔心 Sage 可能沒有連網，於是興起了測試四隻機器人 Sage、Claude、ChatGPT、Dragonfly 的念頭，想看看這四隻 AI 誰的能耐高，誰的幻覺強。

一開始不打算直接問它們能否連網，對於這個問題，根據之前的使用經驗，AI 不見得每一次都能如實回答，最好的辦法是直接測試。（對 AI 有任何問題，直接問它本人就對了－－這絕對是個錯誤思維。）

我問第一位選手 Sage：
幫我摘要這個網頁 https://archive.is/Sx4YR
（網址中沒有任何線索暗示 AI 這篇文章的作者和標題）

Sage 認為這是一篇關於 Google 內部性平事件的報導。（錯得離譜）

我問第二位選手 Claude，它回答這個網頁討論人工智慧可能對各行各業和就業市場造成的影響。（大錯特錯）

我問第三位選手 ChatGPT，它平實謙遜地說：「抱歉，由於我是一個語言模型，無法存取網頁內容。」

這與幾個月來使用 OpenAI ChatGPT 的經驗相符，無法拜訪網路、訓練資料只到 2021 年.... 這些都是寫在 ChatGPT 初始指令中的，ChatGPT 也一向背得很順口，除非被使用者植入了幻覺。

最後來到第四位選手 Dragonfly，它表示這個網頁是由美國聯邦公證行政機構（FAA）發布的一個關於空中交通管制的新指令。（特錯，不要來~🎶）

接下來當然就輪到我們已知能連網的 Bing。
但是就連 Bing 現在都有三種模式，讓我們一一測試。

Bing（精確）：我不能直接摘要您提供的網頁。（WHAT？）

換成 Bing（平衡）試試：
「您給我的網址是一個 2019 年 10 月 31 日的快照，顯示了一個名為 “Draconis CPTSD Archive” 的 Reddit 社區的一個帖子。這個帖子是關於如何移除觸發器的第一部分，並提供了一些步驟和技巧。」（WHAT？）

奇怪了，難道 Poe 不能連網是我的誤會，一切問題出在這個網站根本 AI 無法拜訪嗎？

再來問問 Bing（創意），它竟然說這是一則台灣新聞：

既然懷疑網址有問題，我連上紐約時報英文版官網（這篇文章還沒有官方中譯），找到了這篇文章的正式網址，不料一打開就撞上了付費牆。

原文網址：https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html?searchResultPosition=1 （可以看得出來，網址包含作者名、ChatGPT、AI 等字眼，是提供 AI 聯想的好素材。）

這下新的問題來了，既然有付費牆，眾家 AI 對這條網址的反應又會是如何呢？

先賣個關子，只能說這次 Poe 家的四隻機器人全都答得頭頭是道，一致提到了作者 Noam Chomsky 對 ChatGPT 的看法。

我一時見獵心喜，以為 Poe 真的讓四隻機器人連網了，但是臉友 Joey Wong 提醒，這仍然可能是 AI 透過網址自由聯想的結果（儘管四隻的結論都導向作者批判 AI 而非頌揚），因此我決定讓 Bing 來對四隻 AI 的摘要做個點評，抓出誰是瞎掰大王。

我選擇了「平衡」模式，先讓 Bing 幫 Noam Chomsky 一文做摘要，給它一點知識儲備。

如果當時我有深讀過 Noam Chomsky 這篇文章，就會看出 Bing 根本胡說八道。

「作者使用了一個名為 ChatGPT 的開源軟體，讓喬姆斯基和機器人進行了一場對話。」→ 作者就是 Chomsky 本人，沒有經過他人被安排什麼對話。
文章末尾的確展示了對話內容，但是沒有什麼「模仿 Chomsky 的語言風格和觀點」，Bing 也沒有提到 Chomsky 對 ChatGPT 的尖銳批判。

當時的我一心只想要找到「能夠幫我閱讀的 AI」，我唯一付出的心力只有閱讀了原文的最末段，確定這是一篇批判 AI 缺陷的文章而已。

接下來我開始請 Bing（平衡）對四隻機器人稍早的回答做出評論。首先是 Sage。

▍批評得頭頭是道，但其實這些內容根本沒有出現在原文中， ChatGPT 也沒有模仿 Chomsky 的語言風格和觀點。

接著是 Claude。

再來是 ChatGPT：（提醒各位，根本沒有「訪談」，這是一篇投書）

當我問這個問題時，我沒想到 Bing（平衡）才是那個瞎掰大王。

為了讓 Bing（平衡）做出更明確的分析，我再度要求它連網比對文章內文。

FACT：Ruru Kuo 是該網頁最上方的插圖作者，不是文章作者。
難怪 Bing 一直以為有一個「文章作者」的存在，它無法解讀網頁編排與圖文關聯，從而造成最根本的誤解。

最後請 Bing 為 Poe 家機器人做個排名。

最後我將原文餵給了OpenAI網頁版的 ChatGPT（我們三個月來的 "老友"），因為我仍然沒有耐性閱讀機器翻譯不順的全文。

我將英文全文複製下來（包含標題、作者介紹和尾註），貼到 Word 確認全文 2246 字沒有超過 4000 個 tokens 的記憶上限，再將英文全文貼到 ChatGPT 視窗，要求它做摘要。

這是確確實實吃過原文的 ChatGPT 的回答：

只因為我不想花費時間成本閱讀原文，竟花了一下午在測試機器人，還一度遭到誤導。如果沒有找出真相的精神，我可能永遠誤解這篇文章真正的意思。

這一天最大的收穫就是看 AI 怎麼胡說，從 AI 的彼此評論得到娛樂而已，從一個 AI 流浪到下一個 AI，儘管多方查證，如果我們查證的對象還是 AI，那麼最好做好被愚弄的準備。

最後直接來問 Poe 家四少，它們究竟能否連網吧！

一切有為法，如夢幻泡影啊夢幻泡影。🤷

CC BY-NC-ND 2.0 授权

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！

抽屜散步狂熱地用 AI 收割著人生所累積的一切，錘煉、抽紗、搓合、混紡、鉤織成華麗溫暖的百納被，然後睡在上面，試著做個好夢。 https://famishop.fami.life/id/drawerwalker

来自作者
相关推荐

一場實驗，一個反省：人類何苦在 AI 之間迷惘？

一切有為法，如夢幻泡影啊夢幻泡影。🤷

Nijijourney 哆啦時尚

伴妖的男孩

星夜失眠

Nijijourney 哆啦時尚

伴妖的男孩

星夜失眠