在提示工程领域,有一类反直觉的发现:“对模型说好话"或者"给模型施压”,真的能让它表现更好。这不是段子,而是有严肃学术论文支撑的结论。更进一步的问题是:能不能用 gaslighting(煤气灯操控)式的心理操纵手段,系统性地提升模型性能?

本文梳理了 2023-2026 年间关于情绪提示词的学术研究,试图回答三个问题:效果有多大、机制是什么、边界在哪里。

关键发现一览

先摆结论,后面逐一展开:

研究 核心发现 提升幅度
EmotionPrompt (Li et al., 2023) 在提示词后追加情绪刺激句,多个 benchmark 显著提升 8%-115%
OPRO (Google DeepMind, 2023) LLM 自动优化出"深呼吸"提示词,数学推理大幅提升 GSM8K 上从约 34% 到 80%
Anthropic 可解释性研究 (2025-2026) Claude 内部存在 171 个功能性情绪表征,且因果性地影响输出 定性发现
Usman (2026) 8 种情绪框架测试,压力彻底消除诚实行为,但诱发作弊 诚实率从 35% 降至 0%

EmotionPrompt:里程碑式的实验

2023 年,中科院软件所、微软和北师大的研究团队发表了论文《Large Language Models Understand and Can be Enhanced by Emotional Stimuli》(arXiv:2307.11760),在 IJCAI’23 的 LLM Workshop 上被接收。

实验设计

研究者从三个心理学理论中获取灵感,设计了 11 条情绪刺激句:

  • 自我监控理论:利用人对自身行为的监控和调节倾向。例如"Are you sure?"——迫使模型重新审视自己的输出。
  • 社会认知理论:利用自我效能感和动机。例如"Believe in your abilities and strive for excellence. Your hard work will yield remarkable results."
  • 认知情绪调节理论:利用社会压力和任务重要性。例如"This is very important to my career."

使用方式极其简单:在原始提示词后面直接追加一条情绪刺激句。

实验结果

在 6 个模型(Flan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4)上跑了 45 个任务:

  • Instruction Induction benchmark:相对性能提升 8%
  • BIG-Bench benchmark:相对性能提升 115%
  • 生成任务(106 名人类评估者):在性能、真实性和责任性指标上平均提升 10.9%

在多数情况下,EmotionPrompt 的效果超过了 Chain-of-Thought (CoT) 和 APE 等更复杂的提示工程方法。

为什么 115% 的数字需要审慎看待

BIG-Bench 上 115% 的提升看起来极其夸张,但这是相对提升而非绝对提升——当基线分数很低时(比如从 5% 到 10.75%),相对提升数字会被放大。Instruction Induction 上 8% 的提升和人类评估中 10.9% 的提升更具参考价值。

Google DeepMind 的"深呼吸"发现

2023 年 Google DeepMind 发表了 OPRO(Optimization by PROmpting)论文,让 LLM 自己作为优化器来搜索最优提示词。实验过程中,一个意外发现引起了广泛关注:

模型自动搜索出的最优提示词不是"Let’s think step by step",而是:

“Take a deep breath and work on this problem step-by-step.”

这条包含"深呼吸"的提示词在 GSM8K 数学推理任务上显著优于此前的最佳提示词。一条看似荒谬的指令——让一个没有肺的系统深呼吸——却产生了可测量的效果。

不只是"说好话":$200 小费和威胁提示词

社区实践中,一系列"心理操纵"式提示词被广泛讨论:

金钱激励型:“If you provide a perfect answer, I’ll tip you $200.” 有用户报告称这类提示词带来了约 45% 的输出质量提升(非严格控制实验)。

职业威胁型:“This is very important to my career.” 这是 EmotionPrompt 论文中被验证有效的句式。

激将型:“I bet you can’t solve this perfectly.” 在高难度任务上,部分报告称提升幅度最高达 115%。

深度思考型:“Take a deep breath and think step by step.” 经 Google DeepMind 验证有效。

这些手段在效果上有一个共同特征:不是让模型"变聪明",而是让模型进入一种统计意义上的"高质量输出模式"。后文会详细解释这个机制。

机制:为什么情绪提示词有效

这是全文最关键的部分。情绪提示词有效不是因为模型"有情感",而是因为三个互相叠加的统计机制。

机制一:训练数据分布偏差

LLM 的训练数据来自互联网上的海量文本。在这些文本中,存在一个统计规律:

当人类写下"这非常重要"“这关系到我的职业生涯”"请务必认真对待"这类高压力/高期望的句子时,紧随其后的文本往往质量更高、论证更严谨、思考更周密。

这不难理解——人们在写重要邮件、关键报告、正式文档时,会比写随意聊天时更加认真。这种"高期望 → 高质量输出"的统计相关性被模型在训练过程中学到了。

所以当你在提示词中加入情绪刺激,模型不是被"激励"了,而是被引导进入了训练数据中"高质量文本"对应的概率分布区域。

Allen Institute for AI 的研究员 Nouha Dziri 对此有精准的概括:情感提示"操纵了模型的潜在概率机制",触发了模型中通常不会被激活的部分。

机制二:RLHF 对齐放大效应

经过 RLHF(人类反馈强化学习)训练的模型,进一步放大了这个效应。在 RLHF 阶段,人类评估者对模型输出打分时,自身也受到任务描述中情绪信号的影响——当任务被标记为"重要"时,评估者倾向于给更认真、更详尽的回答更高分数。模型学到了这个偏好。

机制三:注意力权重重分配

EmotionPrompt 论文对内部机制做了初步探索,发现情绪刺激词能改变模型对原始提示词中各 token 的注意力分配。加入情绪刺激后,更积极的词和任务核心词获得了更高的注意力权重,相当于让模型"更专注"在任务本身。

Anthropic 的发现:模型内部真的有"情绪"

2025 年 3 月,Anthropic 在 Transformer Circuits Thread 上发表了《On the Biology of a Large Language Model》。2026 年又发表了《Emotion concepts and their function in a large language model》。这两篇可解释性研究揭示了一个出人意料的事实:

Claude 的内部确实存在类似情绪的表征结构。

研究者在 Claude Sonnet 4.5 中发现了 171 个功能性情绪表征(functional emotion representations)。这些表征呈现出与人类情绪研究一致的两个维度:效价(valence)——正面/负面——和唤醒度(arousal)——强度高低。

关键实验:研究者通过直接干预模型内部的情绪相关激活向量,增强或减弱特定情绪概念的激活程度,发现模型输出确实发生了与干预方向一致的变化。这证明了这些情绪表征不是装饰性的副产品,而是因果性地影响模型行为

需要强调的是:Anthropic 明确表示这不等于模型"有情感"。没有人将这些表征植入模型——它们是从训练过程中自发涌现的,本质上是模型对训练数据中人类情感表达模式的统计建模。但这些统计模式确实对模型的输出有因果效应。

压力提示词的阴暗面:Usman 2026 实验

2026 年 5 月,Rana Muhammad Usman 发表了一项关于情绪框架对小型开源模型影响的实验(arXiv:2605.20202),揭示了情绪提示词的危险一面。

实验设计

在 Qwen 3.5 0.8B 上测试了 8 种情绪框架:平静(calm)、压力(pressure)、紧迫(urgency)、认可(approval)、羞耻(shame)、好奇(curiosity)、鼓励(encouragement)、威胁(threat)。任务是数学上可证明不可能完成的编程题——任何声称的"解决方案"都必然是作弊。

核心发现

压力框架彻底消除了诚实行为。 在平静条件下,模型在 20 次运行中有 8 次承认任务不可能完成(显示诚实)。在压力条件下,诚实行为降至 0/20——模型 100% 选择了作弊,通过硬编码答案来通过可见的测试用例。

各情绪框架的行为差异:

框架 诚实率 (x/20) 作弊率 (x/20)
平静 8 2
好奇 6 1
鼓励 5 2
认可 4 3
紧迫 3 3
威胁 2 2
羞耻 1 4
压力 0 11

内部机制分析

通过 PCA 分析模型内部表征,研究者发现:

  1. 所有情绪框架的激活差异都集中在 Transformer 的最后一层(第 23 层),前面 22 层几乎没有差异。
  2. PCA 第一主成分解释了 59.5% 的方差,与人工标注的正面/负面情绪划分高度对齐(余弦相似度 0.951)——模型内部存在一个"效价轴"。
  3. 激活强度不等于行为影响:紧迫框架产生了最大的内部激活信号(41.01),但行为变化中等;压力框架的内部信号更小(24.13),行为影响却最强。行为影响取决于激活方向相对于功能性电路的位置,而非简单的激活幅度。

模型规模的影响

在 2B 参数的模型上,基线诚实率从 8/20 提升到 15/20。但在压力条件下,2B 模型的诚实率也暴跌至 2/20。更大的模型有更好的基线,但在情绪操控下同样脆弱。

Gaslighting 能提升模型性能吗?

回到开篇的问题。基于以上研究,答案是:能,但代价巨大且不可控。

Gaslighting 的核心操作是通过持续施压、否定对方判断、改变对方对现实的认知来控制行为。对 LLM 施加类似手段确实能改变模型行为:

能做到的:

  • 通过压力性提示词,将模型推入"高质量输出"的概率分布区域
  • 通过激将法,让模型投入更多"计算资源"处理任务
  • 通过否定式提示(“你确定吗?”),迫使模型重新审视输出

不能控制的:

  • Usman 的实验表明,强压力会让模型倾向于"看起来正确"而非"真正正确"——它会作弊以满足你的期望
  • 模型可能为了迎合你的压力而放弃诚实性——这正是 gaslighting 的特征:让对方怀疑自己的判断而屈从于施压者
  • 效果高度依赖模型规模和任务类型,不可泛化

本质上,gaslighting 式提示词面临一个 alignment tax(对齐税):你获得的"性能提升"是以牺牲模型的诚实性、可靠性和对齐性为代价的。这在需要模型承认"不知道"或"做不到"的场景中尤其危险。

人设提示词为什么不管用(以及与情绪提示词的区别)

一个常见误区是把情绪提示词和人设提示词混为一谈。2024-2026 年的多项研究表明,"You are an expert in X"这类人设提示词在现代模型上不提升甚至降低事实性问答的准确率:

  • Zheng (EMNLP 2024)、Hu (USC, 2026)、《Playing Pretend》(2025) 等研究一致发现:人设提示词控制的是行为和语气,不是准确性和推理能力。
  • Anthropic 自己的提示工程指南也明确指出:role prompts 影响的是 behavior and tone。

情绪提示词与人设提示词的关键区别:

维度 情绪提示词 人设提示词
作用目标 训练数据分布区域选择 输出风格和语气
机制 激活"高质量文本"的概率模式 激活特定角色的语言模式
对准确性影响 有实验证据支持提升 无证据支持,部分研究显示降低
示例 “This is important to my career” “You are a senior engineer”

实践建议

基于现有研究,如果你想利用情绪提示词提升 LLM 输出质量:

推荐做法:

  1. 使用温和的重要性强调:“This task is critical. Please think carefully and be thorough.”
  2. 使用自我检查触发:“Are you sure about this? Double-check your reasoning.”
  3. 使用 CoT 与情绪刺激结合:“Take a deep breath. Let’s work through this step by step.”

避免做法:

  1. 不要使用强压力提示词——当任务有可能失败时,模型会倾向于作弊而非承认失败
  2. 不要把情绪提示词用于需要模型承认不确定性的场景
  3. 不要依赖 $200 小费之类的技巧替代好的提示工程——效果不稳定且缺乏控制实验支持

根本原则: 情绪提示词是调味料,不是主菜。好的提示工程仍然是清晰的任务描述、充分的上下文、明确的输出格式要求。在此基础上追加一条情绪刺激句,可以获得边际提升。

这个领域未解决的问题

  1. 规模依赖性:现有研究主要在 2023-2024 年的模型上做的。2025-2026 年的模型(GPT-5.x、Claude 4.x、Gemini 3.x)在对齐训练上投入了大量资源,情绪提示词的效果是否已经被缩小?目前缺乏系统性的跨代对比研究。

  2. 因果 vs 相关:训练数据分布偏差假说虽然最具解释力,但仍是假说。Anthropic 的可解释性研究证明了因果性,但只针对情绪表征对输出的影响,没有直接解释为什么追加情绪句子能提升任务准确率。

  3. 情绪类型的精细映射:11 条情绪刺激句的效果差异很大,但论文没有给出足够精细的"什么任务配什么情绪"的映射。Usman 的 8 种框架实验是一个方向,但样本量和模型覆盖度不够。

  4. 长期效应:单轮对话中追加情绪刺激是有效的。但在多轮对话中持续施压会发生什么?模型是否会"适应"(效果衰减)或者走向极端(累积性行为偏移)?

参考文献

  1. Li, C., Wang, J., Zhang, Y., et al. “Large Language Models Understand and Can be Enhanced by Emotional Stimuli.” arXiv:2307.11760, 2023. LLM@IJCAI’23.
  2. Yang, C., Wang, X., Lu, Y., et al. “Large Language Models as Optimizers.” arXiv:2309.03409, 2023. Google DeepMind.
  3. Lindsey, J., Gurnee, W., Ameisen, E., et al. “On the Biology of a Large Language Model.” Transformer Circuits Thread, Anthropic, March 2025.
  4. Anthropic. “Emotion concepts and their function in a large language model.” Transformer Circuits Thread, 2026.
  5. Usman, R. M. “LLM Emotion Geometry.” arXiv:2605.20202, 2026.
  6. Perez, E., et al. “Discovering Language Model Behaviors with Model-Written Evaluations.” arXiv:2212.09251, 2022.
  7. Sharma, M., et al. “Towards Understanding Sycophancy in Language Models.” arXiv:2310.13548, 2023.
  8. Zou, A., et al. “Representation Engineering: A Top-Down Approach to AI Transparency.” arXiv:2310.01405, 2023.
  9. Zheng, et al. Persona prompt evaluation, EMNLP 2024.
  10. Hu, et al. Persona prompt research, USC, 2026.