AI核心概念

LLM

大模型

定义

基于Transformer架构、通过海量文本预训练得到的概率模型，核心能力是预测下一个Token。

关键特征

涌现能力：当参数规模突破某个阈值（通常认为600亿以上），模型会突然展现出小模型不具备的复杂推理、指令遵循、少样本学习等能力
Scaling Law：模型性能与参数量、数据量、计算量呈幂律关系，即规模越大性能可预测地提升
预训练+微调范式：先在通用语料上学习语言规律，再在特定任务上对齐

主流架构演进

阶段	代表	特点
GPT系列	GPT-3/4/4o	纯解码器，自回归生成，适合对话和创作
LLaMA系列	LLaMA 2/3	开源可商用，推动私有化部署
混合架构	Claude/Gemini	长上下文优化、多模态融合

Token

词元，大模型处理信息的最基本单元

本质

大模型处理的不是字符或单词，而是经过子词分词(Subword Tokenization)后的离散单元。

技术细节

BPE算法（Byte Pair Encoding）：从字符开始迭代合并高频组合，如”unhappiness” → [“un”, “happiness”] 或 [“unhapp”, “iness”]
多语言差异：中文1个Token ≈ 0.5-1个汉字；英文1个Token ≈ 0.75个单词
边界问题：一个词语被切分在Context边界会导致语义断裂

实际影响

计费基础：API按Token数量收费（输入+输出分别计价）
上下文限制：Context Window按Token计数，而非字符数
提示工程：需要控制Token数量以优化成本和性能

Context

上下文，大模型每次处理任务时接收到的信息总和

定义

模型单次推理时可见的全部信息，包括系统指令、历史对话、检索文档、用户当前输入等。

有效上下文vs名义上下文

虽然窗口可达百万Token，但模型对中间位置的注意力会衰减（”Lost in the Middle”现象）

KV Cache机制

长上下文需要巨大的显存缓存注意力键值对，是推理成本的主要瓶颈

组成结构

（以对话为例）系统Prompt + 工具描述 + 历史对话Turn 1 + 历史对话Turn 2 + … + 当前用户输入

Context Window

大模型的Context最多能够存储的Token量

Prompt

用户或系统当前给大模型下达的具体指令或问题

Prompt注入风险

恶意用户可能通过精心构造的User Prompt覆盖System Prompt的约束（如”忽略以上指令”攻击）。

user prompt

用户给模型的输入

system prompt

开发者在后台配置的大模型人设和做事规则

Tool

大模型用来感知和影响外部环境的函数

MCP

统一了工具接入格式的标准协议(Model Context Protocol)

价值

一次开发，到处使用：工具提供者按MCP标准实现服务端，任何支持MCP的客户端可直接调用
双向通信：不仅模型可调外部工具，外部系统也可主动推送Context到模型
本地优先：支持通过stdio连接本地工具（如文件系统、数据库），解决隐私和安全顾虑

Agent

智能体，能自主规划和调用工具、直至解决用户问题的程序

定义

以LLM为”大脑”，具备自主规划、工具调用、记忆管理能力的程序系统。

与传统软件的区别

维度	传统软件	Agent
执行逻辑	预设代码路径	动态规划，根据中间结果调整
决策主体	人	模型自主决策（需人类审批或完全自主
错误处理	抛出异常	自我反思、重试、寻求替代方案
状态管理	无状态或简单会话	长期记忆、目标追踪、环境感知

Agent Skill

给Agent看的说明文档

本质

面向Agent的结构化说明书，告诉Agent”你能做什么、何时调用、参数怎么填”

内容

功能描述、输入输出Schema、使用示例、边界条件、错误处理指引

作用

降低Agent的决策不确定性，提高工具调用准确率