AI核心概念
AI核心概念
LLM
大模型
定义
基于Transformer架构、通过海量文本预训练得到的概率模型,核心能力是预测下一个Token。
关键特征
涌现能力:当参数规模突破某个阈值(通常认为600亿以上),模型会突然展现出小模型不具备的复杂推理、指令遵循、少样本学习等能力
Scaling Law:模型性能与参数量、数据量、计算量呈幂律关系,即规模越大性能可预测地提升
预训练+微调范式:先在通用语料上学习语言规律,再在特定任务上对齐
主流架构演进
| 阶段 | 代表 | 特点 |
|---|---|---|
| GPT系列 | GPT-3/4/4o | 纯解码器,自回归生成,适合对话和创作 |
| LLaMA系列 | LLaMA 2/3 | 开源可商用,推动私有化部署 |
| 混合架构 | Claude/Gemini | 长上下文优化、多模态融合 |
Token
词元,大模型处理信息的最基本单元
本质
大模型处理的不是字符或单词,而是经过子词分词(Subword Tokenization)后的离散单元。
技术细节
BPE算法(Byte Pair Encoding):从字符开始迭代合并高频组合,如”unhappiness” → [“un”, “happiness”] 或 [“unhapp”, “iness”]
多语言差异:中文1个Token ≈ 0.5-1个汉字;英文1个Token ≈ 0.75个单词
边界问题:一个词语被切分在Context边界会导致语义断裂
实际影响
计费基础:API按Token数量收费(输入+输出分别计价)
上下文限制:Context Window按Token计数,而非字符数
提示工程:需要控制Token数量以优化成本和性能
Context
上下文,大模型每次处理任务时接收到的信息总和
定义
模型单次推理时可见的全部信息,包括系统指令、历史对话、检索文档、用户当前输入等。
有效上下文vs名义上下文
虽然窗口可达百万Token,但模型对中间位置的注意力会衰减(”Lost in the Middle”现象)
KV Cache机制
长上下文需要巨大的显存缓存注意力键值对,是推理成本的主要瓶颈
组成结构
(以对话为例)系统Prompt + 工具描述 + 历史对话Turn 1 + 历史对话Turn 2 + … + 当前用户输入
Context Window
大模型的Context最多能够存储的Token量
Prompt
用户或系统当前给大模型下达的具体指令或问题
Prompt注入风险
恶意用户可能通过精心构造的User Prompt覆盖System Prompt的约束(如”忽略以上指令”攻击)。
user prompt
用户给模型的输入
system prompt
开发者在后台配置的大模型人设和做事规则
Tool
大模型用来感知和影响外部环境的函数
MCP
统一了工具接入格式的标准协议(Model Context Protocol)
价值
一次开发,到处使用:工具提供者按MCP标准实现服务端,任何支持MCP的客户端可直接调用
双向通信:不仅模型可调外部工具,外部系统也可主动推送Context到模型
本地优先:支持通过stdio连接本地工具(如文件系统、数据库),解决隐私和安全顾虑
Agent
智能体,能自主规划和调用工具、直至解决用户问题的程序
定义
以LLM为”大脑”,具备自主规划、工具调用、记忆管理能力的程序系统。
与传统软件的区别
| 维度 | 传统软件 | Agent |
|---|---|---|
| 执行逻辑 | 预设代码路径 | 动态规划,根据中间结果调整 |
| 决策主体 | 人 | 模型自主决策(需人类审批或完全自主 |
| 错误处理 | 抛出异常 | 自我反思、重试、寻求替代方案 |
| 状态管理 | 无状态或简单会话 | 长期记忆、目标追踪、环境感知 |
Agent Skill
给Agent看的说明文档
本质
面向Agent的结构化说明书,告诉Agent”你能做什么、何时调用、参数怎么填”
内容
功能描述、输入输出Schema、使用示例、边界条件、错误处理指引
作用
降低Agent的决策不确定性,提高工具调用准确率




