🧠 核心 AI 概念 LLM — 大型语言模型 大型语言模型是一个在海量文本数据集上训练的神经网络,用于预测和生成类似人类的文本。 LLM 在数十亿词语上学习统计模式,以理解并生成几乎任何主题的语言。
截至 2026 年 4 月,主要的 LLM 系列涵盖云 API 和可以本地运行的 open-weight 模型:
Provider文本 / 推理 模型多模态 / 专用 模型 Anthropic Haiku 4.5、Sonnet 4.6、Opus 4.6(+ 1M 上下文变体) — OpenAI GPT-4.1 / 4.1-mini / 4.1-nano;GPT-5.2、GPT-5.4 / 5.4-mini;o3、o3-mini、o4-mini(推理) DALL·E 3(图像)、Sora(视频)、Whisper / TTS(音频) Google Gemini 2.5 Flash / Lite;Gemini 3 Flash;Gemini 3.1 Pro Veo 3(视频);Gemma 4 open-weight(文本 + 视觉 + 音频) Meta Llama 3.3 70B;Llama 4 Scout(10M ctx)、Llama 4 Maverick — Other Mistral Large、Codestral;DeepSeek R1 / V3;Grok 3(xAI) — 云模型(Anthropic、OpenAI、Google)需要 API key。Open-weight 模型(Llama 4、Gemma 4、Mistral)可以通过 Ollama 或 LM Studio 在本地运行 —— 参见 本地与开源模型.
Transformer 在 2017 年论文中引入的神经网络架构 “Attention Is All You Need” 它驱动了几乎所有现代 LLM。Transformers 并行处理整段文本序列,使用一种称为 self-attention的机制,使每个 token 能“关注”上下文中的其他所有 token。
示例: 在 transformers 出现之前,语言模型逐词处理文本(RNN)。 Transformers 可以同时处理所有词语,使得训练速度更快并且更善于捕捉文本中的长程依赖关系。
Token LLM 处理的基本文本单元。tokens 不是单词 —— 它们是由模型的分词器决定的字符块。 一个单词可能是一个 token 或多个;一个单字符也可能是一个 token,取决于上下文和语言。
示例: “tokenization” 可能被拆为 ["token", "ization"] —— 2 个 tokens。 “Hello” 通常是 1 个 token。表情符号通常花费 1–3 个 tokens。理解 tokens 对管理 API 成本和上下文限制很重要。试试我们的 AI Token Counter 来 准确可视化你的文本如何被分词。
Tokenizer 在将原始文本送入 LLM 之前将其转换为 tokens 的算法。每个模型家族使用自己的分词器,这就是相同文本在不同模型上产生不同 token 数的原因。 常见方法包括 Byte-Pair Encoding(BPE)和 SentencePiece。
示例: GPT 模型使用 tiktoken(基于 BPE)。Llama 使用 SentencePiece。 Claude 使用自定义的 BPE 分词器。相同的句子“Good morning”在 GPT-4o 中可能花费 2 个 token, 在 Llama 3 中可能是 3 个 token —— 在大规模优化提示成本时这点很重要。
Embedding 一个高维数值向量(浮点数组),用于表示文本的语义含义。含义相近的文本会在向量空间中几何上相近,从而实现搜索、聚类和基于检索的相关性判断, 无需关键字匹配。
示例: “dog”和“puppy”的 embeddings 在几何上会非常接近。 “cat”会在附近但不如前两者接近。“automobile”会相距较远。这就是向量数据库即使在没有关键字匹配的情况下也能找到语义相关文档的原因。
上下文窗口 一个 LLM 一次可以处理的最大文本量(以 tokens 来衡量)——包括提示和响应。 上下文窗口之外的内容对模型不可见。上下文窗口从 ~4K tokens(GPT-3)增长到 1M+ tokens(Gemini 2.0 Flash)。
示例: Claude 3.7 Sonnet 支持 200K tokens(约 150,000 字,约两本完整小说)。GPT-4o 支持 128K tokens。Gemini 2.5 Pro 支持 1M tokens。大型上下文窗口能够在单次提示中分析完整的代码库、法律文档或研究论文。
Temperature 一个采样参数(0.0–2.0),控制 LLM 输出的随机性。低 temperature 使响应更确定和集中;高 temperature 使其更有创造性和多样性。 temperature 不影响模型的知识——只影响其从可能的下一个 token 中采样的方式。
TemperatureBehavior最佳用于 0.0确定性(贪心)代码生成、数据提取 0.3–0.7Balanced问答、摘要、对话 1.0–1.5Creative头脑风暴、创意写作 2.0非常随机实验性探索 Top-P(Nucleus 采样) A complementary sampling parameter to temperature. Instead of considering all possible next tokens, Top-P restricts sampling to the smallest set of tokens whose cumulative probability exceeds the threshold P. Top-P = 0.9 means sampling only from the top 90% probability mass.
示例: If the model assigns 60% probability to "cat", 25% to "dog", and 5% each to 3 other words, Top-P = 0.9 would sample only from {cat, dog} — excluding the low-probability tail. Most practitioners adjust temperature first and leave Top-P at 1.0.