最近讀到一篇由麻省理工學院(MIT)研究團隊發表的論文,標題是《您的大腦與 ChatGPT:使用人工智慧助理進行論文寫作任務時認知負擔的累積》。這篇研究非常有趣,它深入探討了像 OpenAI 的 ChatGPT 這樣的大型語言模型(LLM)在教育環境中使用時,可能帶來的「認知成本」——這可不只是你上網費那麼簡單,而是關乎我們大腦如何學習、思考和記憶的深層次問題。
這篇研究的目的很明確:想知道頻繁使用 LLM 會不會影響我們的學習技能、認知參與度、記憶力,甚至是你對自己寫出來東西的「所有權」感。
他們是怎麼研究的呢?研究人員找來了 54 位來自波士頓地區五所大學的年輕人(18-39 歲),隨機分成了三組,讓他們在不同條件下寫論文:
- LLM 組:只能用 OpenAI 的 GPT-4o 來寫論文。
- 搜尋引擎組:可以用任何網站,但明確禁用 LLM(他們主要用 Google,而且關閉了 AI 增強的答案)。
- 僅靠大腦組 (Brain-only):不准用任何網路工具或 LLM,只能靠自己的知識。
這些測試持續了三個月,每組都寫了三篇論文。最有趣的是,在第四個階段,研究人員把部分參與者(共 18 人)的工具使用權限做了調換:原來 LLM 組的人被要求不用任何工具(LLM-to-Brain),而僅靠大腦組的人則被要求使用 LLM(Brain-to-LLM)。
研究中,他們不僅分析了論文的語言和內容(透過自然語言處理,NLP),還使用腦電圖(EEG)記錄了參與者的大腦活動,這讓他們能直接觀察寫作時的神經活動和認知負荷。論文還會交給人類老師和一個特別開發的 AI 評審共同打分。
那麼,研究到底發現了什麼呢?
大腦活動:越依賴 AI,大腦越「輕鬆」?
EEG 數據顯示,大腦的連結性會隨著外部支援的增加而系統性地減少。
- 僅靠大腦組 的大腦神經網路最活躍、分佈最廣泛,這表明他們必須大量調動自己的認知資源,包括額葉執行區域與其他皮層區域的廣泛溝通,以應對從頭構思論文所需的高工作記憶和規劃需求。他們的大腦在所有頻段(Alpha, Beta, Delta, Theta)都表現出更強的神經連結性。
- 搜尋引擎組 介於兩者之間,認知參與度中等。他們在枕葉和視覺皮層的活動增加,這可能反映了他們在研究和內容收集階段對視覺資訊的參與。
- LLM 組 的整體神經連結性最低。LLM 輔助寫作似乎削弱了神經溝通的強度和範圍,特別是在額葉 Theta 連結方面顯著降低,這表明他們的工作記憶和執行需求較輕,因為 AI 提供了外部認知支持(例如,建議文本、提供資訊、結構)。
第四階段的結果尤其引人深思:
- LLM-to-Brain 組(之前用 LLM,後來不用了):他們在沒有 AI 協助下寫作時,神經連結性較弱,Alpha 和 Beta 網路的參與度不足。這可能與他們之前對 AI 的依賴導致「認知卸載」(cognitive offloading)有關——也就是把思考的負擔交給工具,長期下來就影響了自己獨立思考的能力。
- Brain-to-LLM 組(之前不用 LLM,後來開始用 LLM):這些參與者在首次使用 LLM 時,反而表現出更高的記憶回溯和廣泛的神經網路重新參與。這可能表示,在沒有 AI 寫作經驗後,首次使用 AI 工具重寫論文時會啟動更廣泛的大腦網絡互動,因為他們需要將 AI 輸出與自己已有的認知結構進行整合。這或許暗示了在學習初期鼓勵完全的神經參與,待穩固的寫作網絡建立後,再選擇性地使用 AI 輔助,可能更能優化即時技能轉移和長期神經發展。
論文內容:AI 寫作更「同質化」
- 同質性:僅靠大腦組的論文在大多數主題上表現出較大的變異性,而 LLM 組的論文則在每個主題內呈現統計上的同質性,與其他組相比偏差顯著較小。這意味著 AI 生成的內容風格和結構更容易趨於一致。
- 命名實體識別 (NER):LLM 組的論文使用了最多的特定命名實體(例如,人物、地點、年份),而搜尋引擎組使用的 NER 數量減少了至少兩倍,僅靠大腦組使用的 NER 數量比 LLM 組減少了 60%。
- N-grams 分析:LLM 組的文章詞彙偏向第三人稱和職業方面(如「選擇事業」),可能受到 AI 訓練數據中常見模式的影響。搜尋引擎組在某些主題上則 heavily heavily heavily 使用了「無家可歸者」相關的 n-grams,可能受到搜尋引擎優化的內容影響。僅靠大腦組則展現出更多獨特的 n-grams,反映了內在的思維和個性化表達。
行為表現:記憶力下降與「所有權」迷思
- 論文所有權:LLM 組對論文的所有權感較低,表現出碎片化和衝突的作者身份感。搜尋引擎組擁有較強的所有權感,但低於僅靠大腦組。僅靠大腦組幾乎一致地宣稱對其文章擁有完全所有權。
- 引用能力:LLM 組的參與者引用自己論文的能力顯著受損,會出現記憶模糊或不正確引用。在 Session 1 時,83% 的參與者難以引用,且沒有人能提供正確的引用。而搜尋引擎組和僅靠大腦組的參與者則表現出相當且優越的引用準確性。
- 滿意度:搜尋引擎組對論文的滿意度始終最高。
- 學習技能下降:研究指出,重複依賴 LLM 可能會導致學習技能下降。儘管最初的好處顯而易見,但在四個月的實驗中,LLM 組的參與者在神經、語言和得分等各方面都表現得比僅靠大腦組差。
這背後的原因是「認知負擔」的累積。研究認為,AI 工具雖然降低了即時的認知負擔,但長期而言會削弱批判性思維、增加被操控的脆弱性並降低創造力,因為使用者在未經評估的情況下複製建議。這就像你學會了用計算機做數學題,但如果因此就不再練習心算,你的心算能力就會退化一樣。
AI 評審 vs. 人類教師:誰更懂「文章」?
這點也很有趣!研究發現,AI 評審始終在獨創性和品質指標上給予論文更高的分數。然而,人類教師則更為懷疑,他們能識別出 LLM 生成文章的結構和同質性,同時也能辨別出參與者個人獨特的寫作風格。這表明,儘管 AI 能生成「完美」的文本,但人類評審更能感受到其缺乏的「靈魂」和個性。
總結與啟示
這項研究讓我們看到,LLM 雖然能顯著減少寫作的阻力,但這種便利性伴隨著顯著的認知成本。它可能會削弱使用者批判性評估 LLM 輸出或「觀點」的意願。AI 工具的引入會重塑認知過程,從而可能阻礙深度認知處理、資訊保留以及對書面材料的真實參與。
對於我們這些對 AI 感興趣的朋友們,這篇論文提供了幾個重要的思考點:
- 小心「認知債務」:短期效率的提升,可能以長期認知能力下降為代價。過度依賴 AI 提供的綜合性答案,可能會無意中阻礙我們的橫向思維和獨立判斷。
- 平衡使用是關鍵:教育和個人學習中,或許應該考慮 AI 工具的輔助與無工具學習階段之間的平衡。在建立穩固的基礎認知能力後,再選擇性地運用 AI,而不是一開始就讓 AI 完全代勞。
- 環境成本不容忽視:論文還提到,LLM 查詢的能源消耗遠高於傳統搜尋查詢。這提醒我們,AI 的發展不僅有認知影響,還有實實在在的環境足跡。
這項研究告訴我們,當我們擁抱 AI 帶來的便利時,也必須保持警惕。AI 就像一把雙刃劍,它能幫助我們更快、更輕鬆地完成任務,但如果使用不當,也可能讓我們的大腦變得「懶惰」,甚至失去獨立思考和創造的能力。
所以,下次當你使用 ChatGPT 時,不妨多問自己一句:我是在讓 AI 幫我思考,還是讓它協助我更好地思考?這將是我們在 AI 時代需要不斷探索和反思的問題。
論文: