进阶

大语言模型工作原理与局限

来源:生态用户上传资料,经 WKB-SM-017 / WKB-SM-014 上料流程整理为前台文章。

大语言模型工作原理与局限

来源:qademo 生态用户上传,upload_a9736ed128ba4eaa。

一、深度长文:大语言模型的工作原理与局限(适合进阶读者)

建议放在“科普文章库”中,标签:#Lv3 技术深潜

1. 从“完形填空”到“生成一切”

大语言模型(Large Language Model, LLM)本质上是一个极其复杂的概率模型。它的核心任务可以概括为:给定一段文本(称为“上下文”或“提示”),预测接下来最可能出现的词。

  • 训练阶段:模型在海量文本(数千亿词)上进行“自监督学习”。一个典型任务叫“预测下一个词”:给模型“猫坐在____”,它要学会填“垫子上”或“沙发上”。通过不断对比预测和真实文本,调整模型内部数以亿计的参数。
  • 涌现能力:当模型规模、数据量、计算量都超过某个阈值时,会突然出现小模型不具备的能力,如:
  • 上下文学习:给几个例子,模型就能照着做。
  • 思维链推理:模型会写出“第一步…第二步…”后再给出答案。
  • 代码生成与执行:能写Python脚本并解释输出。

2. 核心技术回顾:Transformer 与注意力机制

2017年Google发表的《Attention Is All You Need》提出了Transformer架构,取代了之前的循环神经网络(RNN)。

  • 自注意力:在处理每个词时,模型会计算它与句子中所有其他词的相关权重。例如,“它”会高权重指向“动物”,从而理解指代关系。
  • 多头注意力:模型同时运行多个注意力层,每个层关注不同类型的关联(语法、语义、指代等)。
  • 位置编码:因为Transformer不按顺序处理词,所以需要额外注入词的位置信息,让模型知道“猫追狗”和“狗追猫”不同。

3. 训练三阶段(以ChatGPT为例)

  1. 预训练:用无标签的大规模文本(书籍、网页、论文等),通过“预测下一个词”任务训练。此阶段模型学会了语法、事实、推理模式,但也学会了偏见和虚假信息。
  2. 监督微调:用人工标注的“问答对”数据(用户问题+标准答案)继续训练,让模型学会遵循指令。
  3. 人类反馈强化学习(RLHF):让模型生成多个答案,人类排序“好/坏”,训练一个奖励模型,再用强化学习调整语言模型以产出更符合人类偏好的回答。

4. 主要局限与挑战

  • 幻觉:模型没有“事实”的内部存储,只是根据概率生成。当信息不足时,它会编造看似合理的内容。例如,询问一本不存在的书,模型可能给出逼真的书名和作者。
  • 缺乏真实理解:模型能通过律师考试,但不理解“法律”为何物。它没有信念、欲望、因果关系意识。
  • 上下文窗口限制:虽然现在可处理百万Token,但极长对话中早期信息可能被“遗忘”。
  • 偏见放大:训练数据中的社会偏见(性别、种族等)会被模型学去,并在生成时无意中强化。
  • 高计算成本:推理一个LLM需要昂贵的GPU集群,难以在手机等边缘设备上实时运行。

5. 未来方向:RAG、Agent、小模型

  • RAG(检索增强生成):在生成前先从外部知识库检索相关信息,减少幻觉。
  • Agent(智能体):让模型能够调用工具(搜索引擎、计算器、API),自主完成多步任务。
  • 小模型/边缘计算:通过量化、蒸馏等技术,在保持大部分性能的同时将模型压缩到可本地运行(如Llama 3 8B,Qwen 2.5 7B)。

延伸思考:大语言模型是工程杰作,但它不是通向强AI的唯一道路。理解它的概率本质,比盲目崇拜或恐惧更重要。