AI生态社群知识库

进阶

大语言模型工作原理与局限

来源：生态用户上传资料，经 WKB-SM-017 / WKB-SM-014 上料流程整理为前台文章。

大语言模型工作原理与局限

来源：qademo 生态用户上传，upload_a9736ed128ba4eaa。

一、深度长文：大语言模型的工作原理与局限（适合进阶读者）

建议放在“科普文章库”中，标签：#Lv3 技术深潜

1. 从“完形填空”到“生成一切”

大语言模型（Large Language Model, LLM）本质上是一个极其复杂的概率模型。它的核心任务可以概括为：给定一段文本（称为“上下文”或“提示”），预测接下来最可能出现的词。

训练阶段：模型在海量文本（数千亿词）上进行“自监督学习”。一个典型任务叫“预测下一个词”：给模型“猫坐在____”，它要学会填“垫子上”或“沙发上”。通过不断对比预测和真实文本，调整模型内部数以亿计的参数。
涌现能力：当模型规模、数据量、计算量都超过某个阈值时，会突然出现小模型不具备的能力，如：
上下文学习：给几个例子，模型就能照着做。
思维链推理：模型会写出“第一步…第二步…”后再给出答案。
代码生成与执行：能写Python脚本并解释输出。

2. 核心技术回顾：Transformer 与注意力机制

2017年Google发表的《Attention Is All You Need》提出了Transformer架构，取代了之前的循环神经网络（RNN）。

自注意力：在处理每个词时，模型会计算它与句子中所有其他词的相关权重。例如，“它”会高权重指向“动物”，从而理解指代关系。
多头注意力：模型同时运行多个注意力层，每个层关注不同类型的关联（语法、语义、指代等）。
位置编码：因为Transformer不按顺序处理词，所以需要额外注入词的位置信息，让模型知道“猫追狗”和“狗追猫”不同。

3. 训练三阶段（以ChatGPT为例）

预训练：用无标签的大规模文本（书籍、网页、论文等），通过“预测下一个词”任务训练。此阶段模型学会了语法、事实、推理模式，但也学会了偏见和虚假信息。
监督微调：用人工标注的“问答对”数据（用户问题+标准答案）继续训练，让模型学会遵循指令。
人类反馈强化学习（RLHF）：让模型生成多个答案，人类排序“好/坏”，训练一个奖励模型，再用强化学习调整语言模型以产出更符合人类偏好的回答。

4. 主要局限与挑战

幻觉：模型没有“事实”的内部存储，只是根据概率生成。当信息不足时，它会编造看似合理的内容。例如，询问一本不存在的书，模型可能给出逼真的书名和作者。
缺乏真实理解：模型能通过律师考试，但不理解“法律”为何物。它没有信念、欲望、因果关系意识。
上下文窗口限制：虽然现在可处理百万Token，但极长对话中早期信息可能被“遗忘”。
偏见放大：训练数据中的社会偏见（性别、种族等）会被模型学去，并在生成时无意中强化。
高计算成本：推理一个LLM需要昂贵的GPU集群，难以在手机等边缘设备上实时运行。

5. 未来方向：RAG、Agent、小模型

RAG（检索增强生成）：在生成前先从外部知识库检索相关信息，减少幻觉。
Agent（智能体）：让模型能够调用工具（搜索引擎、计算器、API），自主完成多步任务。
小模型/边缘计算：通过量化、蒸馏等技术，在保持大部分性能的同时将模型压缩到可本地运行（如Llama 3 8B，Qwen 2.5 7B）。

延伸思考：大语言模型是工程杰作，但它不是通向强AI的唯一道路。理解它的概率本质，比盲目崇拜或恐惧更重要。