一个 大型语言模型 (LLM) 是一种人工智能系统,经过训练可以理解和生成文本。它是像 ChatGPT、Claude 和 Gemini 等工具背后的技术。尽管名称听起来很技术化,但核心思想很简单:LLM 通过阅读大量文本来学习语言模式,然后利用这些模式预测给定词序列中应该出现的下一个词。

LLM 的训练方法

训练分为两个主要阶段:

  • 预训练。 模型从互联网、书籍和其他来源读取数十亿份文档。在每一步中,它都会被给予一段带有隐藏的最后几个词的文本,并学习预测这些词应该是什么。这一过程在数千个专用计算机芯片(GPU 或 TPU)上运行数周或数月。到最后,模型已经学习了语法、事实、推理模式和更多的知识 —— 只是通过被训练来预测下一个词。
  • 微调。 原始预训练模型很有用,但不可预测。开发人员然后将其进一步训练在人类对话的精心策划数据集上,并使用一种称为 从人类反馈中强化学习(RLHF) 的技术 —— 人类评估者评分模型的答案,模型调整以产生更高评分的响应。这就是为什么 ChatGPT 或 Claude 感觉像一个有用的助手,而不是一个随机的文本生成器。

您将遇到的关键概念

令牌

LLM 不会逐个字符或逐个词处理文本。相反,它将文本分成 令牌 —— 大约每个令牌 3-4 个字符。"understanding" 这个词可能是一个令牌;像 "epistemology" 这样的不常见词可能会分成三个。对于大多数 AI 工具,价格都是以令牌为单位(例如 "$0.003 每 1,000 个令牌")。

上下文窗口

上下文窗口是 LLM 可以一次 "看到" 的文本量 —— 包括您的输入和它之前的输出。早期模型的上下文窗口为 4,096 个令牌(约 3,000 个词)。像 GPT-4 和 Claude 3 这样的现代模型支持数十万个令牌,从而可以在一次提示中处理整个书籍。更大的上下文窗口对于摘要长文档或维持长时间对话等任务直接有用。

参数

参数是模型内部的数值,在训练过程中编码了模型所学到的所有内容。模型大小以数十亿参数来描述:GPT-3 有 175 亿个参数,而最近的模型据传已达到万亿级。参数越多,通常意味着能力越强,但运行所需的计算成本也更高。

温度

温度控制模型输出的 "创造力" 或不可预测性。当温度为 0 时,模型总是选择最有可能的下一个令牌 —— 输出是确定性的和重复的。在更高的温度下,模型从更广泛的可能令牌范围中采样,产生更多样化和有时更具创造力的文本(但也更容易出错)。大多数 AI 写作工具都允许您调整此滑块。

LLM 擅长的领域

  • 总结和重写文本
  • 翻译语言
  • 根据您提供的上下文回答问题
  • 编写和编辑代码
  • 草拟电子邮件、报告和营销文案
  • 用简单的术语解释复杂的话题

LLM 不擅长的领域

  • 可靠的事实回忆。 LLM 经常 "妄想" —— 它们产生听起来令人信服但事实上错误的文本。不要在没有独立核实的情况下依靠 LLM 来获取引用、统计数据或需要核实数据的任何内容。
  • 实时信息。 模型的知识有一个截止日期。它不能告诉您今天的股票价格或昨天的新闻,除非它有一个附加的网络搜索工具。
  • 在非常长的逻辑链上的一致性推理。 对于需要许多顺序逻辑步骤的任务(例如复杂的数学),模型仍然会产生错误。

2026 年的主要模型

风景已经围绕着少数领先的提供商汇聚:

  • OpenAI —— GPT-4o 和 o 系列推理模型
  • Anthropic —— Claude 3 和 4 系列(专注于安全和长上下文)
  • Google —— Gemini 1.5 和 2.0(集成到 Google Workspace 中)
  • Meta —— Llama 3(开放权重,在本地运行)
  • Mistral —— 高效的开源模型

您在此网站上评估的大多数 AI 工具都使用上述模型之一作为其底层引擎,然后在其上构建专用产品 —— 例如写作助手、SEO 工具、编码助手等。

摘要

一个 LLM 是一个统计引擎,经过训练可以预测合理的文本。它的智能是真实的,但与人类智能不同:广泛的模式识别而不是深入的理解。实际的含义是,LLM 是写作、编码和信息工作的强大加速器 —— 但需要仔细提示和人类审查才能可靠地使用。下一个指南将涵盖这些内容。