AI核心概念

LLM

大模型

定义

基于Transformer架构、通过海量文本预训练得到的概率模型,核心能力是预测下一个Token。

关键特征

涌现能力:当参数规模突破某个阈值(通常认为600亿以上),模型会突然展现出小模型不具备的复杂推理、指令遵循、少样本学习等能力
Scaling Law:模型性能与参数量、数据量、计算量呈幂律关系,即规模越大性能可预测地提升
预训练+微调范式:先在通用语料上学习语言规律,再在特定任务上对齐

主流架构演进
阶段 代表 特点
GPT系列 GPT-3/4/4o 纯解码器,自回归生成,适合对话和创作
LLaMA系列 LLaMA 2/3 开源可商用,推动私有化部署
混合架构 Claude/Gemini 长上下文优化、多模态融合

Token

词元,大模型处理信息的最基本单元

本质

大模型处理的不是字符或单词,而是经过子词分词(Subword Tokenization)后的离散单元。

技术细节

BPE算法(Byte Pair Encoding):从字符开始迭代合并高频组合,如”unhappiness” → [“un”, “happiness”] 或 [“unhapp”, “iness”]
多语言差异:中文1个Token ≈ 0.5-1个汉字;英文1个Token ≈ 0.75个单词
边界问题:一个词语被切分在Context边界会导致语义断裂

实际影响

计费基础:API按Token数量收费(输入+输出分别计价)
上下文限制:Context Window按Token计数,而非字符数
提示工程:需要控制Token数量以优化成本和性能

Context

上下文,大模型每次处理任务时接收到的信息总和

定义

模型单次推理时可见的全部信息,包括系统指令、历史对话、检索文档、用户当前输入等。

有效上下文vs名义上下文

虽然窗口可达百万Token,但模型对中间位置的注意力会衰减(”Lost in the Middle”现象)

KV Cache机制

长上下文需要巨大的显存缓存注意力键值对,是推理成本的主要瓶颈

组成结构

(以对话为例)系统Prompt + 工具描述 + 历史对话Turn 1 + 历史对话Turn 2 + … + 当前用户输入

Context Window

大模型的Context最多能够存储的Token量

Prompt

用户或系统当前给大模型下达的具体指令或问题

Prompt注入风险

恶意用户可能通过精心构造的User Prompt覆盖System Prompt的约束(如”忽略以上指令”攻击)。

user prompt

用户给模型的输入

system prompt

开发者在后台配置的大模型人设和做事规则

Tool

大模型用来感知和影响外部环境的函数

MCP

统一了工具接入格式的标准协议(Model Context Protocol)

价值

一次开发,到处使用:工具提供者按MCP标准实现服务端,任何支持MCP的客户端可直接调用
双向通信:不仅模型可调外部工具,外部系统也可主动推送Context到模型
本地优先:支持通过stdio连接本地工具(如文件系统、数据库),解决隐私和安全顾虑

Agent

智能体,能自主规划和调用工具、直至解决用户问题的程序

定义

以LLM为”大脑”,具备自主规划、工具调用、记忆管理能力的程序系统。

与传统软件的区别
维度 传统软件 Agent
执行逻辑 预设代码路径 动态规划,根据中间结果调整
决策主体 模型自主决策(需人类审批或完全自主
错误处理 抛出异常 自我反思、重试、寻求替代方案
状态管理 无状态或简单会话 长期记忆、目标追踪、环境感知

Agent Skill

给Agent看的说明文档

本质

面向Agent的结构化说明书,告诉Agent”你能做什么、何时调用、参数怎么填”

内容

功能描述、输入输出Schema、使用示例、边界条件、错误处理指引

作用

降低Agent的决策不确定性,提高工具调用准确率