我们以为的“智能”,真的需要思考吗?
ELIZA 的开创与“ELIZA效应”
1966年,麻省理工学院的计算机科学家约瑟夫开发了ELIZA程序,这是聊天机器人历史上的重要起点。ELIZA通过模式匹配和替换,模拟罗杰斯派心理治疗师
用户错觉
许多人把 ELIZA 当作真人心理医生来倾诉
这种现象称为“ELIZA 效应”——人类倾向于在脚本化系统中投射情感

那么今天的大模型,和ELIZA之间究竟有何不同?它们又是如何跨越从“模拟理解”到“深度推理”的鸿沟?我们可以从它们对语言的处理方式、背后的模型结构,以及生成内容的方式来逐步展开。
机器人如何说话
ELIZA如何“说话”
ELIZA 的名字,正源自萧伯纳在《卖花女》中,为了融入上流社会而苦练口音的卖花姑娘伊丽莎·迪特尔——外表光鲜,却未真正理解“高雅辞藻”的分量。



《窈窕淑女》- 奥黛丽赫本
该片取材于萧伯纳的作品《卖花女》,讲述了语言学教授希金斯如何将一个满是乡下口音的卖花女依利沙在短期内训练成为一个操着贵族口音、出没于上流社会的千金小姐的故事
与她如出一辙,ELIZA 也是一位“台上演员”:它的每一句话,都来自程序员提前编好的脚本,依靠模式匹配与文本替换,拼凑出看似合情合理的回应。
当你输入“我妈妈做的饭很好吃”时,ELIZA 会识别出“妈妈”一词,从预设的回复中挑出“能多告诉我一些关于你家庭的事情吗?”这样的话语,仿佛在倾听你的情感,却不过是规则驱动的机械动作。
这种“假装理解”的技术,让对话流畅又富有亲和力:它鼓励你不断倾诉,为自己收集更多关键词,进而生成下一轮回应。可归根结底,ELIZA 并不真正“明白”任何内容,它只是在重复预先设定好的台词。
正如伊丽莎·迪特尔始终无法脱离剧本,ELIZA 的魅力,也仅仅在于这场巧妙的“语言幻术”——在表演与真实之间,制造出一丝捉摸不定的错觉。
大模型(如GPT)如何“说话”
GPT的名字源自“生成式预训练Transformer”(Generative Pre-trained Transformer),它并非依靠预设的脚本,而是在庞大的文本数据海洋中学习语言的深层结构。
与ELIZA明显不同的是,GPT并不只是机械地拼凑预定的话术,而是像一个经验丰富的对话伙伴,真正地理解上下文并灵活地进行回应。它基于概率模型和Transformer的自注意力机制,预测下一个词最可能是什么,从而逐渐构建出流畅且贴合语境的句子。
例如,当你输入“我妈妈做的饭很好吃”时,ChatGPT可能会回应:“听起来很温暖呢,你妈妈最拿手的菜是什么呢?”这种回应不仅体现了语境理解,还进一步引导对话,表现出真正的沟通技巧。
GPT的魅力在于它并非只是模仿,而是创造性地运用语言,这使得它的对话更有深度和情感共鸣,而不仅仅是精妙的“语言幻术”。
大型语言模型(LLM)的文本生成过程可以用流程图形式概括为

大模型的推理过程
◈你是谁?--> 我 ◈你是谁?我 --> 是 ◈你是谁?我是 --> 工 ◈你是谁?我是工 --> 程 ◈你是谁?我是工程 --> 师 ◈你是谁?我是工程师 --> EOS
用户输入 → 向量编码(Embedding)
第一步:把句子拆成“积木块”(分词)
机器人不认识整个句子,但我们可以教它认识一些基本的“词块”。所以,我们先把句子拆开。
- “国王是国际象棋中最关键的棋子,任何一方的国王被将死,该方即输棋。” → [“国王”, “是”, “国际象棋”, “中”, “最”, “关键”, “的”, “棋子”, “任何”, “一方”, “被”, “将死”, “该方”, “即”, “输棋”]
这就好比把一句话拆成几块乐高积木。机器人虽然不明白每个积木块的意思,但它能认出这些独立的块。
第二步:给每块“积木”贴上“说明书”(嵌入)
现在机器人有一堆积木块了,但它还是不知道这些积木是什么意思,相互之间有什么关系。所以,我们要给每块积木贴上一份数字“说明书”。
这份“说明书”不是一个简单的编号,而是一串特殊的数字(专业上叫“向量”)。这串数字很神奇,它能表达出这个词的意思。
- “国王” → [0.95, 0.05, …]
- “国际象棋” → [0.88, 0.12, …]
- “将死” → [0.80, 0.20, …]
更神奇的是,意思相近的词,它们的数字“说明书”也会很像。比如,“厉害”和“强大”的数字说明书就会非常接近。
同时,为了让机器人知道词的顺序,我们还会给每个位置的积木再加一个“位置编号”的数字。这样,机器人不仅知道“是什么”,还知道“在哪里”。

词嵌入:“词语地图”
单词 → 高维向量坐标
嵌入就是把词转成向量,模型才“看得见”语言
语义相似 → 距离近 (如:“国王”、“皇后”、“王室”)
语义不同 → 距离远 (如:“汽车”、“自行车”)
为了更直观地探索这些高维向量之间的关系,我们可以借助交互式可视化工具来观察词嵌入:

https://projector.tensorflow.org/
https://opensource.googleblog.com/2016/12/open-sourcing-embedding-projector-tool.html
整个过程就像:
一句话 → 拆成几块积木 → 给每块积木贴上独特的数字说明书
这样一来,原本人类的文字,就变成了机器人能理解和计算的一堆数字了。机器人接下来就可以用这些数字去做分析、回答问题或者画画了。

神经网络预测下一个词 Decoder

可以用“下棋决策”类比模型的推理过程。模型接收向量化的输入序列后,就像棋手观察棋局,评估每种可能走棋的胜算。实际上,神经网络会基于已给定的上下文计算出下一个词的概率分布。例如输入句子“一只猫坐在…”,模型预测“垫子”出现的概率最高。这类似棋手判断某步棋是最优策略。当模型完成这一“下一词概率”推理后,便相当于得到了一系列候选词及其概率,就像棋手为每个可能动作打分一样。
想象一位世界顶级的国际象棋大师,他的每一次落子都精准、深远、充满智慧。一个强大的语言模型(如 GPT)的核心——Transformer 架构,其思考和决策的过程,与这位大师的思维模式惊人地相似。
让我们跟随大师的脚步,一步步拆解这个精妙的智能过程。
第一步:观察棋局 —— 全局视野与输入处理 (Global Vision & Input Processing)
比赛开始,大师不会急于移动任何一颗棋子。他首先会审视整个棋盘,眼中没有孤立的棋子,只有一张由所有棋子构成的、充满张力的关系网。他能瞬间感知到,角落里的“王”与远方“车”之间的潜在联系,以及中心区域“兵”的对峙结构。
Transformer 的运作:
向量化输入 (Vectorized Input):首先,它将每个词或标点转换成一个充满数字的“坐标向量”,这相当于把每个棋子放到棋盘的精确位置上。
Transformer 的超能力:自注意力机制 (Self-Attention):这正是 Transformer 与普通模型的分水岭,也是大师与业余棋手的核心区别。业余棋手可能一个一个地看棋子(像旧的 RNN 模型,容易遗忘),而大师则拥有“上帝视角”。


单词或标点转换为向量的过程
自注意力机制赋予了模型这种“上帝视角”。它能一瞬间并行处理所有词元(棋子),并计算出每一个词元对于句子中其他所有词元的重要性权重。
第二步:反复推演 —— 多层结构与深度计算 (Stacked Layers & Deep Computation)
大师的思考不是一次性的。在看清全局关系后,他会进行多轮的深度推演。第一轮推演后形成的“新局面”会成为他第二轮推演的“新棋盘”,思考的层次越来越深,从战术层面上升到战略层面。

Transformer 的运作: 一个完整的 Transformer 模型正是由许多个这样的“思考单元”(即 Transformer 层)**堆叠(Stack)**而成的。
逐层处理 (Layer-by-Layer Processing)
层叠网络:每一层基于前一层输出,逐步提炼信息
第一层:识别基本关系
例:“小猫” ↔ “睡觉”,“沙发” ↔ “位置”
第二层:整合上下文
理解“小猫是在沙发上休息”
第三层:推断更高层信息
如“小猫很放松” 的情绪含义
效果:从表面结构到深层语义,逐层提炼,最终形成完整理解

大师会多层推演:逐层深化
层叠结构:多个 Transformer 层像多轮棋局推演
逐层提炼:每层基于上层输出,挖掘更深语义
战术到战略:从单词关联到整体语境理解
第三步:评估与落子 —— 输出概率与最终选择 (Output Probabilities & Final Selection)
在最后,他会把对每一步棋的“感觉”转换成明确的“胜算”。比如:移动主教胜算70%,移动城堡胜算95%,吃掉对方的兵胜算85%……最终,他会选择那个胜算最高的走法。


输出 logits:模型的最后一层会输出一个巨大的向量(logits)。这个向量的维度等于其词汇表的大小(比如超过5万个词元)。此时,每个词元都有一个对应的数值,可以理解为大师对每一种可能“走法”的原始评分。
Softmax 函数:为了让这些评分变成直观的“胜算”,模型会使用 Softmax 函数进行归一化处理。它能将所有原始评分转换成一个概率分布 (Probability Distribution),所有词元的概率加起来正好是 1 (100%)。
示例分布:
移动城堡 → 50%
吃掉对方兵 → 30%
移动主教 → 15%
其他走法 → 合计 5%
- 最终选择:模型优先执行胜算最高的走法(如“移动城堡”)。
总结:下棋式决策与文本生成
全局视野:像棋手审局,模型先向量化并自注意力处理所有词元。
多层推演:如同多轮深度思考,每层 Transformer 堆叠提炼更深语义。
概率评分:为每个候选词(走法)打分,并通过 Softmax 转为胜算。
落子选词:始终选择“胜算”最高的词,连贯生成完整句子。

解码输出:从概率分布中选择词并生成句子

想象一下,模型每要生成一个新词,就会拿出一个特制的“幸运大转盘”。
比如,当我说出 “今天天气真...”,AI 的转盘可能长这样:
转盘上的格子:就是所有它认识的汉字。
格子的大小:代表它觉得这个字出现在这里的“可能性”。在“今天天气真...”后面,“好”的可能性最大,所以它的格子最大。“披萨”这种不搭边的词,格子就小得可怜。
怎么玩这个转盘?有几种玩法:
玩法一:最稳妥的玩法(总是选最大块)贪心解码
不转!直接用手把指针摆在最大的那块上。
做法:永远选可能性最高的那个词。
结果:永远是“今天天气真好”。
优点:安全,不会出错。
缺点:非常无聊,毫无惊喜,说出来的话会很死板。
玩法二:凭运气的玩法(真的转起来!)随机采样
用力转动指针,让它随机停下。
做法:因为“好”的面积最大,指针大概率会停在“好”上面。但它也有可能停在“不错”,甚至运气差到极点时停在“披萨”。
结果:大部分时候是“今天天气真好”,偶尔是“今天天气真不错”,充满了可能性。
优点:这让 AI 的回答变得生动有趣,有创造力!
进阶玩法:改变游戏规则 ✨
为了让“凭运气”的玩法更好控制,我们还有两个小技巧:
技巧一:调整“贫富差距”(温度 Temperature)
这个技巧可以改变转盘上各个格子的大小比例。
调整温度的效果
低温度(T<1)
放大高概率词“格子”
收缩小概率词
输出更保守、精准
高温度(T>1)
平衡各格子面积
提升小概率词出现率
创意增强,但风险上升

(左边的低温转盘,“好”的格子变得超级大。右边的高温转盘,所有格子的大小差距变小了。)
技巧二:缩小转盘范围(Top-K / Top-P)
这个技巧是在转动之前,先把一些太离谱的选项直接丢掉。

最关键的一步:一个接一个地转 🔄
为什么 大模型 不是只转一次就完事了。它是一个字、一个字往下“吐”的。

- 动态转盘:每生成一个词,模型就重新制作转盘
- 示例流程:
输入“今天天气真…” → 转盘1 抽中“好”
句子变为“今天天气真好” → 转盘2 抽中“。”
循环执行:不断重复,直至生成完整句子
再看一遍我们的整体流程
