我们经常听到这样一些术语:LLM、Agent、向量数据库、tokens、embeddings、RAG,等等。大多数文章会跳过这些基本知识,围绕某个概念直接展开。实际上,理解了这些核心概念,AI 会变得容易很多。
这篇文章主要普及 10 个最重要的 AI 概念,同时会附上相关的资料。
1. Tokens - 文本信息处理的基本单位
AI 模型在理解一个句子之前,并不是像我们人类那样去阅读它,它首先把句子分成一个个小片段,这些小片段就叫做 token。
Token 的正式译法是
词元。2026 年 3 月,全国科学技术名词审定委员会与国家数据局正式将 token 在人工智能领域的中文名称确定为“词元”。
我们会把句子当成一个完整的语义来理解,但 AI 是一个 token 一个 token 地处理。跟 AI 模型聊天时,我们输入一句话,它看到的是一连串的 token。
一般来说,一个英文单词大约对应 1 ~ 2 个 token,而一个中文字符大约对应 1 ~ 3 个 token。
例如毛主席的这句话:“世界是你们的,也是我们的,但是归根结底还是你们的”,包括标点在内共 24 个字符,在 GPT-5 中对应 16 个 token:

AI 通过 token 来衡量一切:
- 输入大小
- 输出大小
- 价格
- 上下文窗口
- 记忆
1.1 尝试 Tokenization
你可以通过下面两个在线词元分词器(Tokenizer)来尝试词元切分(tokenization):
2. Embeddings - AI 如何理解语义
在词元切分(tokenization)后,文本被转换为一连串数字(见下图),这些数字被称为“词嵌入”或“词向量”(embeddings)。Embeddings 通过数学方式来表示语义,想象一个包含很多词语的集合:
- 语义相近的词语靠得近
- 语义不同的词语离得远

例如:
- 父亲 -> 母亲
- 医生 -> 护士
- 西瓜 -> 橙子
- 苹果 -> 微软(在公司上下文中)
Embeddings 在 AI 中用于:
- 语义搜索
- 推荐系统
- 文档搜索
- RAG 系统
- 向量数据库
AI 并不像人类那样理解语义,它理解的是向量之间的距离。
2.1 进一步了解 Embeddings
你通过下面的资料进一步了解 embeddings:
3. Attention - AI 如何理解上下文
这个概念对于 AI 至关重要,因为一个词语的具体语义取决于其所处的上下文,例如:
她买了一个苹果手机。
她买了一些苹果和香蕉。
相同的词语“苹果”,在不同的上下文中表示不同的语义:
- 在手机上下文中,“苹果”表示一家公司
- 在水果上下文中,“苹果”表示一种水果
AI 模型能够检查句子中的每一个词语并确定最重要的内容,这种能力是通过 Attention 来实现的。这就是为什么现代 AI 可以:
- 理解长句子
- 编写代码
- 总结文档
- 翻译语言
- 回答问题
Attention 是 AI 应用中最重要的思想之一。
3.1 关于 Attention
你可以阅读论文:“Attention Is All You Need”,它介绍了 transformers 并从根本上改变了 AI。
4. Transformers - 现代 AI 背后的引擎
Transformers 是以下模型背后的架构:
- GPT
- Claude
- Gemini
- Llama
- Mistral
- 大多数现代 AI 模型
信息处理过程大致是下面这样的:

AI 模型一次不会生成一个完整的句子,它像下面这样生成文本:
- 预测下一个 token
- 添加 token
- 再次预测下一个 token
- 重复
与 AI 聊天时,它实际上是非常快速地一次又一次地预测下一个 token。
4.1 进一步了解 Transformers
图解 transformer 文章是一个比较好的资源。
5. LLM - 大语言模型
把前面的概念放在一起,简单来说,一个大语言模型(LLM)就是:在大量文本上训练的 transformer,用于预测下一个 token。
在训练期间,LLM 看到的是:
- 书籍
- 网站
- 代码
- 文章
- 文档
LLM 不像数据库那样存储确定的结果,而是“学习”文本中的模式,因此 LLM 可以完成下面的任务:
- 编写代码
- 解释概念
- 翻译语言
- 总结文本
- 生成想法
- 回答问题
关于 LLM,一个非常重要的理解是:它是基于模式预测的,而非确定性的。
6. Hallucination - AI 可能会一本正经地胡说八道
AI 经常会信誓旦旦地提供一些不准确甚至错误的信息,这被称 AI 幻觉(hallucination)。这正是因为前面所提到的:LLM 本质上是在预测内容,它从预测结果中选择那些看起来准确的内容,而不是验证什么内容是真实的。
所以,AI 可能:
- 创建虚假的研究论文
- 给出错误的代码
- 编造事实
- 捏造统计数据
LLM 会基于训练过程中生成的模式,生成可能性最大的内容,这些可能性最大的内容有可能是错误的。在实际应用中,LLM 还需要下面这样的组件或者功能:
- RAG
- Verification
- Tools
- Human review
- 护栏(Guardrails)
在构建 AI 系统之前,注意到 hallucination 是非常重要的。
7. Temperature — 创造力与准确性旋钮
AI 在生成一句话之前并不真正“思考”一个句子;相反,它逐个预测可能性最大的 token。对于每一个待预测的 token,AI 模型都会计算概率,temperature 控制选择的随机程度:
- 低 temperature -> 更安全、更准确、更可预测的答案
- 高 temperature -> 更有创造力、更多样化、有时更冒险的答案
简单来说,temperature 就像是控制 AI 创造力和准确性的旋钮。
通常典型的用法是:
- 0.2 -> 编码
- 0.4 -> 技术答案
- 0.7 -> 正常写作
- 1.0 -> 创意写作
这个参数可以完全改变 AI 生成内容的风格。
8. Context Window - AI 记忆
AI 模型不会记住所有内容。它们只看到上下文窗口(Context Window)内的内容。通常,上下文包括:
- 提示词
- 对话历史
- 文档
- 模型响应
如果对话历史变得太长,旧的信息会被移除,这就是为什么有时 AI 会“忘记”之前的对话内容,像是得了“失忆症”。大的 Context Window 允许:
- 长对话
- 大文档
- 代码库分析
- 知识助手
但更大的 Context Window 也意味着:
- 更多资源占用
- 更多成本
- 更慢的响应
所以 Context Window 大小总是一个权衡项。
9. RAG — 检索增强生成
在开发 AI 应用程序时,这是一个重要的概念。AI 首先会查找相关文档,然后根据这些文档生成内容,而不是仅仅依赖其训练的数据。大致的过程变成下面这样:
- 检索信息
- 生成答案
这样,AI 的答案变得更准确、更及时、更可靠,因为它不仅仅依赖于记忆,而是在响应前使用真实数据。于是跟 AI 对话的过程变成下面这样:
- 用户提问
- 将问题转换为 embedding
- 搜索向量数据库
- 检索相关文档
- 将文档发送给模型
- 模型生成答案
这样可以减少 hallucination 并允许 AI 使用用户自己的数据。
9.1 进一步了解 RAG
如果想构建实际可用的 AI 应用程序,RAG 是必须了解的。
10. AI Agent - 可以完成实际任务的 AI
聊天式的 AI 是这样的:用户提问 -> AI 回答
AI agent 的工作流是:用户提问 -> AI 规划 -> 调用工具 -> 工具结果 -> 重复 -> 完成任务
AI agent 在循环中工作:
- 理解目标
- 计划步骤
- 执行步骤
- 检查结果
- 重复
它可以完成实际的任务:
- 调用 API
- 编写代码
- 运行代码
- 搜索互联网
- 读取文件
- 更新数据库
- 发送电子邮件
- 自动化工作流程
10.1 进一步了解 AI Agent
Agent 是 2026 年 AI 的一个重要发展方向。
写在最后
理解这 10 个概念,能有效地帮助我们对 AI “去媚”,它看起来不再像“魔法”,而是一个具体的计算机工程。
参考链接
10 Most Important AI Concepts You Should Understand Before You Start Building AI