ELIZA 的开创与“ELIZA效应”

1966年，麻省理工学院的计算机科学家约瑟夫开发了ELIZA程序，这是聊天机器人历史上的重要起点。ELIZA通过模式匹配和替换，模拟罗杰斯派心理治疗师
用户错觉
- 许多人把 ELIZA 当作真人心理医生来倾诉
- 这种现象称为“ELIZA 效应”——人类倾向于在脚本化系统中投射情感

::: 这个聊天工具其实早在60年代就出现了——ELIZA 虽然只是一段简单的规则程序，却能让人觉得它“懂你在说什么”。这引发了一个耐人寻味的问题：我们以为的“智能”，真的需要思考吗？ :::

那么今天的大模型，和ELIZA之间究竟有何不同？它们又是如何跨越从“模拟理解”到“深度推理”的鸿沟？我们可以从它们对语言的处理方式、背后的模型结构，以及生成内容的方式来逐步展开。

机器人如何说话

ELIZA如何“说话”

ELIZA 的名字，正源自萧伯纳在《卖花女》中，为了融入上流社会而苦练口音的卖花姑娘伊丽莎·迪特尔——外表光鲜，却未真正理解“高雅辞藻”的分量。

《窈窕淑女》- 奥黛丽赫本

该片取材于萧伯纳的作品《卖花女》，讲述了语言学教授希金斯如何将一个满是乡下口音的卖花女依利沙在短期内训练成为一个操着贵族口音、出没于上流社会的千金小姐的故事

与她如出一辙，ELIZA 也是一位“台上演员”：它的每一句话，都来自程序员提前编好的脚本，依靠模式匹配与文本替换，拼凑出看似合情合理的回应。

当你输入“我妈妈做的饭很好吃”时，ELIZA 会识别出“妈妈”一词，从预设的回复中挑出“能多告诉我一些关于你家庭的事情吗？”这样的话语，仿佛在倾听你的情感，却不过是规则驱动的机械动作。

这种“假装理解”的技术，让对话流畅又富有亲和力：它鼓励你不断倾诉，为自己收集更多关键词，进而生成下一轮回应。可归根结底，ELIZA 并不真正“明白”任何内容，它只是在重复预先设定好的台词。

正如伊丽莎·迪特尔始终无法脱离剧本，ELIZA 的魅力，也仅仅在于这场巧妙的“语言幻术”——在表演与真实之间，制造出一丝捉摸不定的错觉。

大模型（如GPT）如何“说话”

GPT的名字源自“生成式预训练Transformer”（Generative Pre-trained Transformer），它并非依靠预设的脚本，而是在庞大的文本数据海洋中学习语言的深层结构。

与ELIZA明显不同的是，GPT并不只是机械地拼凑预定的话术，而是像一个经验丰富的对话伙伴，真正地理解上下文并灵活地进行回应。它基于概率模型和Transformer的自注意力机制，预测下一个词最可能是什么，从而逐渐构建出流畅且贴合语境的句子。

例如，当你输入“我妈妈做的饭很好吃”时，ChatGPT可能会回应：“听起来很温暖呢，你妈妈最拿手的菜是什么呢？”这种回应不仅体现了语境理解，还进一步引导对话，表现出真正的沟通技巧。

GPT的魅力在于它并非只是模仿，而是创造性地运用语言，这使得它的对话更有深度和情感共鸣，而不仅仅是精妙的“语言幻术”。

大型语言模型（LLM）的文本生成过程可以用流程图形式概括为

大模型的推理过程

◈你是谁？--> 我 ◈你是谁？我 --> 是 ◈你是谁？我是 --> 工 ◈你是谁？我是工 --> 程 ◈你是谁？我是工程 --> 师 ◈你是谁？我是工程师 --> EOS

用户输入 → 向量编码（Embedding）

第一步：把句子拆成“积木块”（分词）

机器人不认识整个句子，但我们可以教它认识一些基本的“词块”。所以，我们先把句子拆开。

“国王是国际象棋中最关键的棋子，任何一方的国王被将死，该方即输棋。” → [“国王”, “是”, “国际象棋”, “中”, “最”, “关键”, “的”, “棋子”, “任何”, “一方”, “被”, “将死”, “该方”, “即”, “输棋”]

这就好比把一句话拆成几块乐高积木。机器人虽然不明白每个积木块的意思，但它能认出这些独立的块。

第二步：给每块“积木”贴上“说明书”（嵌入）

现在机器人有一堆积木块了，但它还是不知道这些积木是什么意思，相互之间有什么关系。所以，我们要给每块积木贴上一份数字“说明书”。

这份“说明书”不是一个简单的编号，而是一串特殊的数字（专业上叫“向量”）。这串数字很神奇，它能表达出这个词的意思。

“国王” → [0.95, 0.05, …]

“国际象棋” → [0.88, 0.12, …]

“将死” → [0.80, 0.20, …]

更神奇的是，意思相近的词，它们的数字“说明书”也会很像。比如，“厉害”和“强大”的数字说明书就会非常接近。

同时，为了让机器人知道词的顺序，我们还会给每个位置的积木再加一个“位置编号”的数字。这样，机器人不仅知道“是什么”，还知道“在哪里”。

词嵌入：“词语地图”

单词 → 高维向量坐标
嵌入就是把词转成向量，模型才“看得见”语言
语义相似 → 距离近 （如：“国王”、“皇后”、“王室”）
语义不同 → 距离远 （如：“汽车”、“自行车”）

为了更直观地探索这些高维向量之间的关系，我们可以借助交互式可视化工具来观察词嵌入：

https://projector.tensorflow.org/

https://opensource.googleblog.com/2016/12/open-sourcing-embedding-projector-tool.html

整个过程就像：

一句话 → 拆成几块积木 → 给每块积木贴上独特的数字说明书

这样一来，原本人类的文字，就变成了机器人能理解和计算的一堆数字了。机器人接下来就可以用这些数字去做分析、回答问题或者画画了。

神经网络预测下一个词 Decoder

可以用“下棋决策”类比模型的推理过程。模型接收向量化的输入序列后，就像棋手观察棋局，评估每种可能走棋的胜算。实际上，神经网络会基于已给定的上下文计算出下一个词的概率分布。例如输入句子“一只猫坐在…”，模型预测“垫子”出现的概率最高。这类似棋手判断某步棋是最优策略。当模型完成这一“下一词概率”推理后，便相当于得到了一系列候选词及其概率，就像棋手为每个可能动作打分一样。

想象一位世界顶级的国际象棋大师，他的每一次落子都精准、深远、充满智慧。一个强大的语言模型（如 GPT）的核心——Transformer 架构，其思考和决策的过程，与这位大师的思维模式惊人地相似。

让我们跟随大师的脚步，一步步拆解这个精妙的智能过程。

第一步：观察棋局 —— 全局视野与输入处理 (Global Vision & Input Processing)

比赛开始，大师不会急于移动任何一颗棋子。他首先会审视整个棋盘，眼中没有孤立的棋子，只有一张由所有棋子构成的、充满张力的关系网。他能瞬间感知到，角落里的“王”与远方“车”之间的潜在联系，以及中心区域“兵”的对峙结构。

Transformer 的运作：

向量化输入 (Vectorized Input)：首先，它将每个词或标点转换成一个充满数字的“坐标向量”，这相当于把每个棋子放到棋盘的精确位置上。
Transformer 的超能力：自注意力机制 (Self-Attention)：这正是 Transformer 与普通模型的分水岭，也是大师与业余棋手的核心区别。业余棋手可能一个一个地看棋子（像旧的 RNN 模型，容易遗忘），而大师则拥有“上帝视角”。

单词或标点转换为向量的过程

自注意力机制赋予了模型这种“上帝视角”。它能一瞬间并行处理所有词元（棋子），并计算出每一个词元对于句子中其他所有词元的重要性权重。

第二步：反复推演 —— 多层结构与深度计算 (Stacked Layers & Deep Computation)

大师的思考不是一次性的。在看清全局关系后，他会进行多轮的深度推演。第一轮推演后形成的“新局面”会成为他第二轮推演的“新棋盘”，思考的层次越来越深，从战术层面上升到战略层面。

Transformer 的运作： 一个完整的 Transformer 模型正是由许多个这样的“思考单元”（即 Transformer 层）**堆叠（Stack）**而成的。

逐层处理 (Layer-by-Layer Processing)

层叠网络：每一层基于前一层输出，逐步提炼信息
第一层：识别基本关系

例：“小猫” ↔ “睡觉”，“沙发” ↔ “位置”
第二层：整合上下文

理解“小猫是在沙发上休息”
第三层：推断更高层信息

如“小猫很放松” 的情绪含义
效果：从表面结构到深层语义，逐层提炼，最终形成完整理解

大师会多层推演：逐层深化

层叠结构：多个 Transformer 层像多轮棋局推演
逐层提炼：每层基于上层输出，挖掘更深语义
战术到战略：从单词关联到整体语境理解

第三步：评估与落子 —— 输出概率与最终选择 (Output Probabilities & Final Selection)

在最后，他会把对每一步棋的“感觉”转换成明确的“胜算”。比如：移动主教胜算70%，移动城堡胜算95%，吃掉对方的兵胜算85%……最终，他会选择那个胜算最高的走法。

输出 logits：模型的最后一层会输出一个巨大的向量（logits）。这个向量的维度等于其词汇表的大小（比如超过5万个词元）。此时，每个词元都有一个对应的数值，可以理解为大师对每一种可能“走法”的原始评分。
Softmax 函数：为了让这些评分变成直观的“胜算”，模型会使用 Softmax 函数进行归一化处理。它能将所有原始评分转换成一个概率分布 (Probability Distribution)，所有词元的概率加起来正好是 1 (100%)。
示例分布：