翻译:Transwan

改写:Codex

校对:Carl Cui

关于 AI 如何影响大脑,作者调研了来自国内、外的多项研究,从多个维度探讨了 AI 对于人类认知的影响。作者还在文中附上了参考链接,这些研究的结论并不是一边倒的,有些研究的结论甚至互相冲突,不禁让我联想最近耿同学曝光的学术圈造假丑闻。于是,对于各项研究,我们保持谨慎态度;关于 AI 会对人类产生哪些影响,我们需要进行独立思考。

1*pdEJftiuMJVD3uUa 3UVSA

图片来源:Shutterstock

引言

从 2023 年 ChatGPT 改变公众对 AI 的想象开始,到 2026 年今天,MIT、Wharton、Harvard、Stanford、Microsoft、OpenAI、Oxford、Google DeepMind,以及中国多所高校的研究者,都在研究同一个问题:AI 聊天机器人到底会怎样影响人的认知、学习和心理状态?

这些研究的类型很杂,也很有价值:有脑部扫描和 EEG 实验,有数千人规模的随机对照试验,有纵向调查、荟萃分析(Meta-analysis),也有发生在真实课堂和工作场所里的实地实验。其中既有预印本,也有已经经过同行评审的论文。

但问题在于,这些研究常常以孤立新闻的形式出现。一篇论文发布,一个耸动标题刷屏一天,然后很快被下一轮话题淹没。结果是,很多人隐约觉得 AI 可能正在改变我们的思考方式,却很少有人真正看到完整图景。

这篇文章试图把这张图拼起来。我汇总了 30 多项研究,逐项看它们到底发现了什么:当我们使用 AI 聊天机器人时,大脑活动、思维方式、学习效果和情感生活会发生哪些变化。更重要的是,我也会指出目前科学界还不知道什么。

最终浮现出来的是一个悖论。这个悖论会影响政策制定、产品设计、个人使用习惯,以及我们整体上如何和这项既令人兴奋又令人不安的新技术相处。

I. 你的大脑活动会下降

目前已经有少量但不断增加的研究,把人放进脑部扫描仪,或在他们使用 ChatGPT 时佩戴 EEG 传感器。相比自我报告和普通行为测试,神经影像学工具更接近直接观察大脑活动,因此这些研究虽然样本量通常不大,却很值得关注。

  • Your Brain on ChatGPTKosmyna 等人(arXiv 预印本,2025,N=54):MIT Media Lab 用 32 通道 EEG 跟踪三组参与者数月内的写作过程:ChatGPT 用户、Google 搜索用户和无辅助写作者。结果显示,ChatGPT 组的神经连接最弱,比无辅助写作者低最高约 55%。随着实验推进,他们越来越依赖复制粘贴。到了第 4 阶段,当 ChatGPT 组被要求独立写作时,大脑活动仍然处于受抑状态,研究者称之为“认知债务”。相反,原本无辅助写作的人在第 4 阶段首次使用 ChatGPT 时,大脑连接反而增强。Kosmyna 的总结很关键:“时机可能很重要。”
  • Lower engagement of cognitive control, attention, modulation networks and lower creativity in children while using ChatGPTHorowitz-Kraus 等人(bioRxiv 预印本,2025,N=31):这是目前少见的使用 fMRI 同时观察儿童和成人与聊天机器人互动时大脑活动的研究。成年人在认知控制网络中表现出更强的网络内连接;儿童则在认知控制、注意力和调节网络上的参与度较低。这暗示儿童大脑可能比成人更容易受到 AI 使用方式的影响。
  • EEG during creative design with AI toolsWang 等人(Frontiers in Psychology,2025,N=64):这项研究给出了相反方向的证据。使用 ChatGPT、Midjourney、Stable Diffusion 等 AI 创意工具的设计专业学生,比使用传统软件的对照组表现出更高的专注度和更好的创意表现。关键区别在于,他们不是被动接收答案,而是在主动指挥 AI 作为创意工具。
  • Effects of different AI-driven chatbot feedback on learning outcomes and brain activityYin 等人(Nature portfolio,2025,N=87):研究者用 fNIRS 测量学生和聊天机器人互动时的大脑激活情况。不同反馈方式会激活不同区域。元认知反馈,比如“你为什么认为那是答案?”,会增加额极区激活,并与更高的迁移分数相关;中性反馈则更多激活背外侧前额叶皮层。换句话说,聊天机器人怎么和你说话,会改变你的大脑怎么工作。
  • NeuroChat: A neuroadaptive AI chatbot for customizing learning experiencesBaradari 等人(arXiv 预印本,2025,N=24):MIT Media Lab 做了一个能实时监测 EEG 的原型系统。当它检测到参与度下降时,会调整回复方式。相比标准聊天机器人,它显著提升了 EEG 测得的参与度和自我报告参与感,但没有改善短期学习结果。这说明“认知脱离”不是不可避免的,产品设计可以介入。

结论:大脑成像证据仍处在早期阶段,样本量小,预印本多,而且结果并不完全一致。但整体模式已经比较清楚:被动使用 AI,也就是让 AI 直接给答案,往往会降低与费力思考相关的大脑参与;主动使用 AI,也就是把它当作需要你指挥和挑战的工具,则可能维持甚至提高参与度。关键变量不是有没有 AI,而是 AI 到底要求你的大脑做什么。当 AI 替你思考时,你的大脑自然会少做一些

II. 你会更少质疑 AI 的输出

另一组证据指向一个更现实的问题:人会过度信任 AI。研究者用不同名字描述这种现象,包括“认知投降”“自动化偏见”和“认知卸载”。这些概念说的都是同一件事:当 AI 给出一个流畅、完整、看起来专业的答案时,人们很容易直接接受,而不是认真审查。

  • AI 如何重塑人类推理与认知投降的兴起Shaw & Nave(SSRN 工作论文,2026,N=1,372):Wharton 做了三项预注册实验,让参与者回答推理题,并让 AI 在部分情况下故意给出错误答案。当 AI 错时,参与者约 80% 的时间仍然选择相信它,结果表现甚至比完全没有 AI 更差。对 AI 的信任度是最强预测因素,高信任者采纳错误答案的概率高出 3.5 倍。只有约 20% 的人主动推翻错误 AI 答案。
  • 生成式 AI 对批判性思维的影响Lee 等人(CHI ‘25,2025,N=319):Microsoft 和 Carnegie Mellon 调查了每周使用 GenAI 的知识工作者,收集了 936 个真实使用案例。结果是:对 GenAI 越有信心,批判性思维越少。工作者从主动解决问题转向被动监督,从“边做边想”转向“从生成结果里挑一个”。他们产出的结果也更趋同。
  • 探索参差不齐的技术前沿Dell’Acqua 等人(Organization Science,2026,N=758):Harvard Business School、Wharton、MIT Sloan 和 BCG 联合做了一项预注册实地实验,让 BCG 顾问完成 18 项真实任务。处在 AI 能力边界内的任务,AI 让完成量增加 12.2%,速度提高 25.1%,质量提升 40%。但一旦任务超出 AI 能力边界,AI 用户得出正确方案的概率低了 19 个百分点。问题在于,边界外的错误输出看起来依然很成熟,人很难分辨。
  • 对话式人工智能的政治说服杠杆Oxford/Stanford/MIT(Science,2025,N=76,977):对话式 AI 的说服力显著高于静态信息,微调最多可使说服力提高 51%。更令人不安的是,模型越有说服力,信息准确性往往越低。

结论:这些研究共同指向一个紧迫问题,即 AI 的流畅表达创造了一种新的失败模式。错误答案不再粗糙、可疑、容易被发现,而是以完整、专业、逻辑顺滑的形式出现。人越信任 AI,就越容易在这种形式面前放弃审查。

III. 你可能学得更少,也可能学得更多

教育研究给出的结论非常分裂,但这种分裂本身就是重点:直接把 AI 当答案机器,通常会损害学习;把 AI 设计成教学支架,则可能显著提升学习。关键不在于 AI 是否进入课堂,而在于它替代了认知工作,还是帮助学生完成认知工作

有害的一面

  • 没有护栏的生成式 AI 会损害学习Bastani 等人(PNAS,2025,N≈1,000):Wharton 和宾夕法尼亚大学工程学院在高中数学课堂做了预注册 RCT。使用标准 ChatGPT 的学生练习成绩提高了 48%,但随后无辅助考试低了 17%。他们把 ChatGPT 当作答案机器,直接复制解法。相比之下,经过重新设计的 GPT 导师通过引导推理而不是直接给答案,让练习成绩提高了 127%,并大幅避免了学习退步。学生自己并没有意识到学习效果下降。
  • ChatGPT 作为认知拐杖Barcaui(Social Sciences & Humanities Open,2025,N=120):Fundação Getulio Vargas 和 UFRJ 进行了一项预注册 RCT,并在学习结束 45 天后做突击记忆测试。传统学习组得分约 69%,ChatGPT 组约 58%,相差 11 个百分点。AI 组遗忘更快,说明知识在初始编码阶段就没有真正稳固下来。先前的 AI 使用经验并没有抵消这种认知卸载效应。
  • 警惕元认知懒惰Fan 等人(British Journal of Educational Technology,2025,N=117):浙江大学和莫纳什大学做了一项写作实验。ChatGPT 组写出的文章更好,但知识获取和迁移没有显著改善。研究者把这种现象称为“元认知懒惰”:学习者把监控和评估自己思维的工作交给了 AI。产品变好了,学习者没有。
  • 付出代价的认知轻松Stadler、Bannert & Sailer(Computers in Human Behavior,2024,N=91):慕尼黑工业大学和慕尼黑大学的研究显示,LLM 用户感受到更低的认知负荷,但推理和论证质量也更低。任务变轻松了,因为真正困难的部分被外包了。

有帮助的一面

  • AI 辅导在哈佛的表现优于主动学习Kestin 等人(Scientific Reports,2025,N=194):一个经过精心设计的 GPT 导师,目标是提问而不是给答案,带来了比传统主动学习高出一倍多的学习收益,而且学生花费时间更少。
  • Tutor CoPilotWang 等人(arXiv 预印本,2024,N=1,800):斯坦福的 RCT 让 AI 为人类辅导老师提供实时建议,而不是直接面对学生。结果是,学生掌握主题的概率提高 4 个百分点;低评分辅导老师的学生提升 9 个百分点。AI 提升了老师,老师再提升学生,成本约为每位辅导老师每年 20 美元。
  • 从黑板到聊天机器人De Simone 等人(World Bank,2025,N≈800):尼日利亚埃多州一项为期六周的课后项目,在教师指导下使用 Microsoft Copilot。六周学习收益相当于 1.5 到 2 年常规学校教育,并优于发展中国家 RCT 研究中 80% 的教育干预,对女学生效果尤其明显。
  • AI 辅导可以安全有效地支持学生Google DeepMind/Eedi(arXiv 预印本,2025,N=165):人类辅导老师监督一个经过教学法调优的 AI。辅导老师在零修改或极少修改情况下批准了 76.4% 的 LearnLM 草拟消息。学生在后续主题中解决新问题的概率提高 5.5 个百分点,辅导老师也表示从模型中学到了新的教学实践。
  • 生成式 AI 增强了个人创造力但降低了新颖内容的集体多样性Doshi 和 Hauser(Science Advances,2024,N=300):UCL 和埃克塞特大学研究 AI 对创意写作的影响。AI 辅助故事被评为更有创造力,尤其能帮助创造力较弱的作者。但 AI 辅助作品之间的相似度高出 5.0% 到 5.2%,形成一种社会困境:个人收益可能侵蚀集体多样性。

结论:教育研究给政策的信号非常明确:同一种技术,因为设计不同,可能带来完全相反的结果。把 ChatGPT 当答案机器,会降低学习;把 AI 设计成能引导推理的导师,则可能提升学习。真正关键的问题不是“要不要用 AI”,而是“如何设计 AI 的介入方式”。

IV. 你会变得更孤独吗?

关于 AI 聊天机器人与心理健康的研究,是这批文献中最矛盾的一部分。AI 不只影响学习和认知,也会影响情绪、依赖和社会行为。

  • AI 与人类行为如何塑造长期使用聊天机器人的心理社会影响Fang 等人(arXiv 预印本,2025,N=981):MIT Media Lab 和 OpenAI 做了一项为期四周的 RCT,在 9 种条件下让参与者每日使用 ChatGPT,涉及超过 300,000 条消息。结果显示,较高每日使用率与更高孤独感、依赖性、问题性使用以及更低社交化相关。语音模式一开始能缓解孤独,但高频使用后优势减弱。核心模式是:短期缓解可能换来长期依赖。
  • 求助于 AI 陪伴如何预测孤独感,反之亦然?Folk 与 Dunn(PsyArXiv 预印本,2025,N=2,000+):University of British Columbia 做了一项为期 12 个月的纵向双向分析,发现孤独感会驱动聊天机器人使用,而使用又预示着四个月后孤独感增加,孤独感增加又进一步预示使用增加。不过,聊天机器人使用并没有显著预测更广泛社会联系指标下降。
  • 与社交聊天机器人使用相关的个体与幸福感因素Latikka 等人(Journal of Social and Personal Relationships,2026,N=5,663):Tampere University 的六国研究发现,在芬兰、法国、德国、爱尔兰、意大利和波兰,社交聊天机器人使用都与心理困扰正相关;其中四个国家中,孤独感预示聊天机器人使用。这种跨文化一致性被研究者称为“令人震惊”。
  • 拟人化的个体差异有助于解释与 AI 伴侣的社会联系Folk、Heine 与 Dunn(Scientific Reports,2025,N=1,274):University of British Columbia 发现,一个人越倾向于拟人化技术,就越容易在聊天机器人互动后产生连接感。对一些人来说,AI 的人造属性是一道跨不过去的墙;对另一些人来说,拟人化会让这道墙消失。

结论:心理学研究的关键在时间尺度。短期实验常常发现 AI 陪伴能缓解孤独,甚至产生治疗性收益;持续数周或数月的研究,则更常看到孤立、依赖和痛苦。两者并不矛盾。很多应对机制都有类似模式:酒精可以短期降低社交焦虑,但长期可能增加焦虑。AI 聊天机器人是否会走向同样轨迹,或者长期影响会逐渐稳定,目前还没有定论。

V. 元分析:表现提升和能力增长不是一回事

少数元分析试图调和这些看似冲突的发现,尤其是在学习领域。

  • ChatGPT 对学生学习表现、学习感知和高阶思维的影响Wang 与 Fan(Humanities and Social Sciences Communications,2025,覆盖 2022-2025 年 51 项研究):杭州师范大学的元分析发现,AI 对学习表现有很大的正向影响,对高阶思维有中等影响,且受干预类型调节。
  • ChatGPT 是否提升了学生的学习?Deng 等人(Computers & Education,2025,覆盖 2022-2024 年 69 项研究):另一项杭州师范大学元分析发现,ChatGPT 提高了学业表现、情感动机状态和高阶思维,同时降低了心智努力,对自我效能感没有显著影响。由于缺少干预后评估,这项研究无法判断长期影响。
  • ChatGPT 对学生学习成果的影响Wu 等人(Humanities and Social Sciences Communications,2026,覆盖 2022-2024 年 35 项研究):总体显示中等程度积极影响,并显著增强认知和非认知技能。学科、实验持续时间和教学模式是重要调节变量。

结论:元分析确认了前文的悖论:AI 对即时表现的提升相对稳定,但对独立能力形成所需的认知过程,例如高阶思维、元认知、自我效能和迁移,证据要么较弱,要么为零,要么尚未充分测量。换句话说,很多研究更擅长测量容易测的东西,比如考试分数,却很难测量真正重要的东西:人是在成长,还是在退化。

VI. 理论框架:为什么 AI 会造成这种影响

除了实证研究,也有一些论文试图建立理论框架,解释 AI 为什么会以这种方式影响认知。

  • 科学研究中的 AI 与理解错觉Messeri 与 Crockett(Nature,2024):耶鲁和普林斯顿的研究者认为,AI 制造了“理解的错觉”:用户因为看到流畅、自信的输出,就误以为自己比实际知道得更多。他们提出知识工作中四类 AI 原型:Oracle、Surrogate、Quant、Arbiter,并指出每一类都有独特的认识论风险。他们还警告“科学单一文化”的出现,即 AI 可能缩小研究者提出问题的范围。核心警句是:我们产出更多,但理解更少。
  • 将人机交互作为系统 0 思维的论据Chiriatti 等人(Nature Human Behaviour,2024):他们建议在 Kahneman 的系统 1 和系统 2 之外,加入一个“系统 0”。系统 1 是快速直觉,系统 2 是缓慢深思,系统 0 则是把思考外包给 AI 的前认知层。它甚至决定了哪些内容能进入人的意识。
  • 从工具到威胁:AI 聊天机器人诱发的认知萎缩Dergaa 等人(Frontiers in Psychology,2024):这篇论文把过度依赖 AI 和病态互联网使用做类比,并借助延展心智理论提出:当 AI 成为认知假体时,底层认知肌肉可能因废用而萎缩。
  • 长期人机交互的大脑层面:“3R 原则”Rossi、Fraccaro 与 Manzotti(npj Artificial Intelligence,2026):作者认为,被动、无批判地依赖 AI 可能削弱活动依赖性大脑可塑性,侵蚀认知;主动共创则可能维持甚至增强认知。他们提出结果、响应、责任三项原则,作为一种“认知卫生”的预防框架。

结论:这些理论从不同角度指向同一个结构性洞察:AI 的流畅性和可用性创造了一条认知阻力最小的路径。当这条路径几乎没有摩擦,又能产出足够好的结果时,费力思考在当下就变得更难被证明是必要的。理论框架描述的,正是实证研究中反复出现的差距:AI 提升了输出,但未必提升产出者本身

VII. 公众怎么看

公众对 AI 的担忧并不是凭空出现的,只是这种担忧常常还停留在“AI 好还是坏”的二元框架里。

  • 美国人对 AI 及其对人类和社会影响的看法Pew Research(2025,N=5,023):53% 的美国人认为 AI 会削弱创造性思维能力,50% 认为它会损害建立有意义关系的能力。对 AI“担忧多于兴奋”的美国人比例,从 2021 年的 37% 上升到 2025 年的 50%。
  • 青少年、社交媒体与 AI 聊天机器人Pew Research(2025,N=1,458):64% 的美国青少年使用 AI 聊天机器人,30% 每天使用,超过一半用于课业。低收入家庭青少年中,有 20% 借助聊天机器人完成全部或大部分课业,高收入家庭这一比例为 7%。这是学术文献中仍然严重不足的公平性维度。另有 60% 的青少年表示,他们学校的学生使用聊天机器人作弊。

结论:Pew 的数据说明,人们确实感到 AI 正在威胁认知和人际关系,而本文汇总的研究大体支持这种直觉。但公众讨论常常把问题简化成“AI 是好是坏”,研究真正指出的是另一个变量:同一种技术会产生相反结果,关键取决于实施方式和使用方式

全球结论:问题不在 AI 本身,而在设计

30 多项研究放在一起看,最核心的发现可以概括为一句话:AI 聊天机器人稳定提升即时产出的质量和速度,比如考试答案、论文、创意作品和专业交付物;但它们也可能削弱那些随着时间积累才形成的能力,比如持久知识、独立推理和创造性多样性。

在我看来,这个悖论不会因为模型变强就自动消失。只要工具是替你完成认知工作,而不是与你共同完成认知工作,这个结构性问题就会存在。表现提升是真实的,能力受损也可能是真实的。它们之所以能同时发生,是因为它们作用在不同时间尺度上。

但这并不意味着结论是悲观的。干预设计和使用方式可以改变结果。同样的底层技术,可以让你的产出更好却让你能力变弱;也可以真正帮助你能力提升。决定结果的不是 AI 这个抽象名词,而是它被如何设计、如何部署、如何使用。

因此,“我们是否应该使用 AI”这个问题,远不如“AI 干预应该如何设计、技术应该如何被使用”重要。听起来这似乎很显然,但公共讨论仍然太常停留在“AI 好还是坏”的层面。真正重要的是:AI 是在替你思考,还是迫使你更好地思考?

我们仍然不知道什么

即便已有 30 多项研究,这个领域仍有几个关键空白。

  • 缺乏长期神经影像研究。 MIT 的 EEG 研究只追踪了四次测试。我们还没有研究能测量连续数月或数年使用 AI 后的大脑变化。关于“认知债务”的发现仍然初步,但值得优先研究。
  • 个体差异研究不足。 谁更容易发生认知投降?谁能抵抗?Wharton 的研究指出,对 AI 的信任度是关键预测因素;另一些研究发现年龄和教育水平重要。但性格、认知风格、专业知识与 AI 易感性的关系,还远没有被充分研究。作者个人观察是,AI 可能是一种“本性放大器”,会让人原本的倾向变得更极端,但这仍只是经验判断。
  • 儿童研究几乎空白。 作者只找到一项包含 31 名儿童的 fMRI 研究。与此同时,美国青少年中 64% 已经使用 AI 聊天机器人,30% 每天使用。他们是接触最多、也最值得研究的人群。AI 对发育中大脑的影响,是整个领域最紧迫的空白之一。
  • 科学研究跟不上技术变化。 由于科学进展慢于技术迭代,很多研究使用的是旧模型,比如 GPT-4o、GPT-3.5 等。有些变量与具体模型无关,比如认知卸载会继续存在甚至加剧;但涉及回复质量的变量,则必须谨慎解释。未来某些影响可能消失,某些可能改善,另一些也可能恶化。

未来最大的未决问题

这 30 多项研究对“正在发生什么”的描述越来越一致,但对“这意味着什么”仍有分歧。AI 引发的认知卸载,究竟是一种暂时调整,类似计算器刚出现时数学老师的恐慌,最终会让学生解决更难的问题;还是一种本质不同的东西,因为它太流畅、太容易获得,以至于会削弱人们培养底层能力的动机?

计算器类比很安慰人,但它未必成立。计算器自动化的是计算,这是一种机械性工作。AI 聊天机器人自动化的是推理、论证、综合和创造性表达,而这些认知活动本身就是技能,不只是通往技能的手段。计算器替你做算术时,你失去的是算术练习;AI 替你思考时,你可能失去的是思考练习

这种损失是否重要,取决于 AI 是否能永远替你思考。更关键的是,取决于你是否相信思考过程本身具有独立于结果的价值

这值得认真想一想。

参考资料