AI 大模型入门

2

那说到大模型，首先需要回答两个问题，什么是人工智能，什么是大语言模型，下面逐一解释：

问题一：什么是AI（人工智能）？

AI，全称Artificial Intelligence（人工智能），是指通过计算机系统模拟人类思维判断的技术和方法。AI的核心目标是使机器能够执行通常需要人类智能才能完成的任务，包括自然语言理解、图像识别、决策制定、问题解决等。

问题二：什么是大语言模型（LLM）？

大语言模型（Large Language Model，简称LLM），也称为大模型，是指参数量达到数十亿甚至数千亿级别的深度学习语言模型。LLM通过在大规模文本语料库上进行预训练，学习语言的统计规律和语义表示，从而具备理解、生成和处理自然语言的能力。

大模型的"大"体现在三个维度：

参数量大

参数量是模型可学习参数的总数，包括权重矩阵和偏置项。参数量决定了模型的容量（Capacity），即模型能够存储和表示的信息量。典型的大模型参数量包括：GPT-3有1750亿参数，GPT-4参数量未公开但估计在数千亿级别，PaLM有5400亿参数。参数量与模型能力存在正相关关系，但并非线性关系，还受训练数据质量、模型架构等因素影响。

训练数据规模大

大模型需要海量高质量文本数据进行预训练，训练语料库通常包含TB到PB级别的文本数据，数据来源包括网页文本、书籍、论文、代码等，数据多样性涵盖多种语言、领域和文体。大规模数据使模型能够学习到语言的通用规律和广泛的世界知识。

计算资源需求大

大模型的训练和推理需要巨大的计算资源：训练算力需要数千到数万块GPU，训练时间可达数周或数月；推理算力方面，单次推理需要大量内存和计算资源；存储需求方面，模型权重文件可达数百GB。

AI与大模型的关系？

AI（人工智能）是最大的技术范畴，包含了所有让机器具备智能的技术和方法。在这个广阔的领域中，机器学习是AI的核心分支，通过算法从数据中自动学习模式和规律。如下图：

机器学习内部包含多种学习范式：监督学习（需要标注数据）、无监督学习（从无标签数据中发现模式）、强化学习（通过与环境交互学习最优策略）。这些范式是机器学习的不同方法论，可以独立或组合使用。

深度学习是机器学习的一个子领域，位于机器学习的核心位置。深度学习基于多层神经网络，能够学习数据的层次化表示，是现代AI技术的重要基础。

生成式AI（Generative AI）是机器学习的一个应用方向，与深度学习有很强的关联。生成式AI专注于生成新的内容，大语言模型是生成式AI在文本领域的重要实现。

大语言模型（LLM）位于深度学习的核心，是深度学习技术在自然语言处理领域的典型应用。大语言模型基于Transformer架构，通过大规模预训练学习语言规律，代表了当前AI技术发展的前沿水平。

大模型的核心特点

通用性（Generalization）：大模型通过大规模预训练学习到通用的语言表示，具备零样本（Zero-shot）和少样本（Few-shot）学习能力。单一模型可以处理多种下游任务，包括文本分类、问答、翻译、代码生成等，无需针对每个任务重新训练。

上下文理解能力（Context Understanding）：大模型通过注意力机制和长上下文窗口，能够理解长文本中的语义关系、指代关系和逻辑结构，而不仅仅是基于关键词的匹配。

生成能力（Generation）：大模型基于学习到的语言分布，能够生成连贯、流畅、符合语法和语义的文本内容，支持创意写作、代码生成、对话生成等任务。

大模型的重要性

大模型的出现标志着AI从专用模型（Narrow AI）向通用模型（General AI）的重要转变。传统AI模型需要针对每个具体任务单独设计和训练，而大模型通过预训练-微调（Pre-training + Fine-tuning）范式，实现了"一个模型，多种任务"的能力。

这种范式转变带来四个核心优势：降低开发成本（无需为每个任务从头训练模型）、提升模型性能（大规模预训练使模型学习到更丰富的语言知识）、增强泛化能力（预训练模型具备更好的跨任务迁移能力）、简化应用部署（统一的模型架构便于标准化部署和维护）。

大语言模型的应用场景

大语言模型的应用场景包括：对话系统（构建智能客服、虚拟助手等对话应用）、内容生成（文章写作、代码生成、创意内容创作）、机器翻译（多语言翻译，支持上下文感知翻译）、问答系统（基于知识库或开放域的知识问答）、代码助手（代码补全、代码解释、代码调试辅助）、文本分析（情感分析、文本摘要、信息抽取）、教育辅助（个性化学习、作业辅导、知识讲解）。

大模型的发展历程如下：

2017年Google提出Transformer架构，奠定大模型技术基础；

2018年BERT（Bidirectional Encoder Representations from Transformers）发布，双向编码器架构提升理解能力；

2019年GPT-2发布，15亿参数，展现强大的文本生成能力；

2020年GPT-3发布，1750亿参数，展现零样本和少样本学习能力；

2022年ChatGPT发布，基于GPT-3.5，通过RLHF优化对话能力；

2023年GPT-4发布，多模态能力，性能进一步提升；

2023年至今开源大模型快速发展，如LLaMA、ChatGLM等。

大模型的发展趋势是从专用模型向通用基础模型转变，从单一模态向多模态扩展，从闭源向开源生态发展。

AI核心词汇解析

AIGC全称是AI Generated Content（AI生成内容），是指利用人工智能技术自动生成文本、图像、音频、视频等多媒体内容的技术和应用。AIGC区别于传统的内容生产方式，其核心特征是内容由AI模型基于学习到的数据分布生成，而非简单的检索、复制或模板填充。AIGC的主要应用形式包括文本生成（文章写作、代码生成、对话生成等）、图像生成（图像创作、风格迁移、图像编辑等）、音频生成（语音合成、音乐创作等）、视频生成（视频创作、视频编辑等）。AIGC的技术基础是生成式AI模型，大语言模型是文本AIGC的核心技术。

生成式AI（Generative AI）是机器学习的一个应用方向，专注于创建新的内容而非仅仅进行分类或预测。生成式AI通过学习数据的概率分布，能够生成与训练数据相似但全新的样本。生成式AI与深度学习有很强的关联，许多生成式模型都基于深度神经网络架构。

机器学习（Machine Learning）是AI的核心分支，其本质是通过算法从数据中自动学习模式和规律，而非依赖显式编程规则。机器学习通过优化算法调整模型参数，使模型能够对未见过的数据做出准确预测或决策。机器学习的基本流程包括：数据输入（提供训练数据集）、模型训练（算法自动学习数据中的模式）、参数优化（通过损失函数和优化算法调整模型参数）、模型评估（在测试集上验证模型性能）。

通俗理解：机器学习就是让电脑像人类一样从经验中学习。比如你小时候看很多猫照片，长大后一眼就能认出没见过的猫。机器学习也是这样：给电脑看一堆数据，它就学会了规律，能处理新情况。简单说就是：喂数据 → 让电脑学习规律 → 电脑变聪明，能预测新东西。

监督学习（Supervised Learning）监督学习是机器学习的一种范式，其特点是训练数据包含输入特征和对应的标签（正确答案）。模型通过学习输入-输出之间的映射关系，建立预测函数。监督学习的数据形式包括：输入为特征向量（如文本、图像的特征表示），输出为标签（如分类类别、回归数值），目标是学习从输入到输出的映射函数 f: X → Y。监督学习需要大量标注数据，标注质量直接影响模型性能。监督学习适用于有明确目标的任务，如图像分类、文本分类、回归预测等。

通俗理解：监督学习就像老师教学生做题：每道题都有标准答案。给电脑看一堆标注好的例子（比如"这是猫"、"这是狗"），电脑就学会了怎么分类新照片。就像背单词：单词+中文释义，背多了自然会翻译新单词。需要很多"题+答案"的数据来学习。

无监督学习（Unsupervised Learning）无监督学习是指从没有标签的数据中学习数据的内在结构和模式。无监督学习的目标是发现数据中的隐藏规律，主要任务包括：聚类（将数据自动分组，发现数据中的自然类别）、降维（将高维数据映射到低维空间，保留主要信息）、密度估计（估计数据的概率分布）。无监督学习不需要标注数据，但学习目标不明确，评估难度较大。自监督学习是无监督学习的一种特殊形式，通过设计辅助任务（如预测下一个词、图像修复等）从无标签数据中学习表示，大语言模型的预训练阶段本质上是一种自监督学习。

通俗理解：无监督学习就像没人告诉你答案，让电脑自己找规律。比如扔一堆乐高积木在地上，电脑能自动把颜色相似的归类在一起，或者把形状一样的放在一起。不需要"标准答案"，电脑自己探索数据里的模式。就像婴儿通过玩耍自己学会认识世界。

深度学习（Deep Learning）深度学习是机器学习的一个子领域，基于人工神经网络（Artificial Neural Network）构建多层非线性变换模型。深度学习的"深度"指的是网络具有多个隐藏层，能够学习数据的层次化表示：浅层学习低级特征（如边缘、纹理），中层学习中级特征（如形状、模式），深层学习高级特征（如语义、概念）。深度学习通过多层非线性变换，能够自动提取数据的复杂特征，在图像识别、自然语言处理、语音识别等领域取得了突破性进展。大语言模型基于深度神经网络架构（Transformer），通过多层注意力机制和前馈网络学习语言的复杂表示。

通俗理解：深度学习就像多层滤镜：第一层认出线条，第二层组合成形状，第三层认出这是"猫脸"。通过很多层处理，电脑能从简单特征（线条、颜色）一步步理解复杂概念（这是只猫）。就像你看一张照片：先看到像素，再看到线条，再看到形状，最后认出"这是我家猫咪在睡觉"。

Token是大语言模型处理文本的基本单元，是模型输入输出的最小处理单位。文本在输入模型前需要经过Token化（Tokenization）过程，将原始文本切分成Token序列。

大模型参数

什么是参数？

参数（Parameters）是神经网络中可学习的权重（Weights）和偏置（Biases）。参数是模型的核心组成部分，决定了模型如何将输入转换为输出。在大语言模型中，参数主要存储在注意力层、前馈网络层和嵌入层中。

一般大模型的参数都是十亿起步，比如GPT3 的参数规模是175B，1B（1 Billion）等于10亿（即(10^9)）。参数的本质包括：权重矩阵（连接不同层神经元的权重，决定信息如何传递和转换）、偏置项（为每个神经元添加的常数项，用于调整激活阈值）、参数值（通过训练过程学习得到，编码了语言的统计规律和语义知识）。

参数的作用机制：参数定义了模型的函数映射关系。给定输入文本，模型通过前向传播（Forward Propagation）计算，参数值决定了每一步计算的权重，最终得到输出概率分布。

参数量与模型能力的关系？

参数量与模型能力存在正相关关系，但遵循收益递减规律：

参数量增加带来的能力提升包括：模型容量提升（能够表示更复杂的函数映射关系）、知识存储能力增强（能够编码更多的语言知识和世界知识）、泛化能力提升（在足够数据支持下，大模型泛化能力更强）。

参数量增加的代价包括：计算成本（训练和推理的计算量随参数量线性或超线性增长）、内存需求（模型权重存储需求随参数量线性增长）、训练难度（大模型训练需要更复杂的分布式训练策略）。

参数量是模型能力的基础，但模型最终性能还取决于：

训练数据质量（数据规模、多样性、质量直接影响模型学习效果）
模型架构设计（Transformer架构的层数、隐藏层维度、注意力头数等超参数）
训练策略（学习率调度、优化器选择、正则化方法等训练技巧）
对齐优化（通过监督微调、RLHF等技术优化模型行为）

因此，模型能力 = f(参数量, 数据质量, 架构设计, 训练策略)，参数量是必要条件而非充分条件。

大模型 Token

什么是Token？

Token是大语言模型处理文本的基本单元，是模型输入输出的最小处理单位。文本在输入模型前需要经过Token化（Tokenization）过程，将原始文本切分成Token序列。

Token与字符、词的关系：字符（Character）是最小的文字单位，如单个汉字、字母；词（Word）是有意义的文字组合，如"喜欢"、"AI"；Token是模型处理的基本单位，可能是字符、词、词的一部分或标点符号。

Token的切分方法？

大模型主要使用子词（Subword）Tokenization方法，常见的有：

BPE（Byte Pair Encoding）：通过迭代合并最频繁的字符对来构建词汇表。BPE能够平衡词汇表大小和Token数量，对未知词有较好的处理能力。 WordPiece：类似BPE，但基于概率模型选择合并对，BERT等模型使用。 SentencePiece：将文本视为Unicode字符序列，支持多语言统一处理。

Token化示例：中文"我喜欢AI"可能被切分为["我", "喜欢", "AI"]或["我", "喜", "欢", "AI"]；英文"I love AI"可能被切分为["I", " love", " AI"]（注意空格可能作为Token的一部分）。

为什么需要Token化？

用Token来表示的原因包括：

统一文本表示（不同语言的文字系统差异很大，Token化提供统一的文本表示方式，便于模型处理多语言文本）
处理未知词（子词Tokenization能够将未知词分解为已知的子词，提高模型的泛化能力）
平衡效率与效果（合理的Token切分能够在词汇表大小和序列长度之间取得平衡，既保证模型效率，又维持语义完整性）
适配模型架构（Transformer等模型架构要求输入是固定格式的Token序列，Token化是模型输入的必要预处理步骤）

Token数量与API成本

大模型API通常按Token数量计费。输入Token（Input Tokens）是用户发送给模型的文本Token数量，输出Token（Output Tokens）是模型生成回复的Token数量，总Token消耗 = 输入Token + 输出Token。成本计算示例：输入100个Token，输出200个Token，总消耗300个Token，成本 = 300 × 单价（通常输入和输出Token单价不同）。

Token数量如何估算？

不同语言的Token化效率不同：中文由于汉字是表意文字，通常1个汉字对应1-2个Token；英文由于使用子词切分，通常1个单词对应1个Token（简单词）或更多Token（复杂词）；代码Token化通常保留语法结构，Token数量与代码复杂度相关。实际估算需要考虑具体Token化器的实现，不同模型的Token化结果可能不同。

Token限制（Context Window）

大模型对Token数量有严格限制，称为上下文窗口（Context Window）。输入长度限制：单次输入不能超过最大Token数，如GPT-3.5的4096 Token，GPT-4的8192或32768 Token；输出长度限制：单次生成有最大Token数限制；总长度限制：输入+输出不能超过模型的最大上下文窗口。

大模型文本理解原理

大模型通过将文本转换为数值向量来表示和理解文本。这个过程基于分布式表示假设：语义相似的词在向量空间中距离相近。模型通过大规模文本数据学习这种表示，使得向量空间中的几何关系反映语言的语义关系。

词嵌入（Word Embedding）是将离散的词汇映射到连续向量空间的技术。每个词被表示为高维空间中的一个向量（通常维度为512、768、1024等），向量中的每个维度编码了词的某种语义或语法特征。

词嵌入的数学表示：词汇表V中的每个词w_i映射到向量e_i ∈ R^d，嵌入矩阵E ∈ R^(|V|×d)存储所有词的向量表示，通过查找表（Lookup Table）或矩阵乘法实现词到向量的转换。

举例说明：假设我们有一个简单的词汇表V = {"我", "喜欢", "AI"}，共3个词（|V| = 3），向量维度d = 4（实际模型中通常是512或768等更大维度）。

词汇表索引：w_0 = "我"，w_1 = "喜欢"，w_2 = "AI"

每个词的向量表示（示例值）：

e_0 = [0.2, 0.5, 0.1, 0.8] （"我"的向量）

e_1 = [0.3, 0.4, 0.6, 0.2] （"喜欢"的向量）

e_2 = [0.9, 0.1, 0.3, 0.5] （"AI"的向量）

嵌入矩阵E（3行×4列）：

E = [
  [0.2, 0.5, 0.1, 0.8],  ← "我"的向量
  [0.3, 0.4, 0.6, 0.2],  ← "喜欢"的向量
  [0.9, 0.1, 0.3, 0.5]   ← "AI"的向量
]

查找表方式：当输入词"我"（索引为0）时，直接查找矩阵E的第0行，得到向量[0.2, 0.5, 0.1, 0.8]

矩阵乘法方式：用one-hot向量[1, 0, 0]（表示"我"）乘以矩阵E，得到对应的词向量

在实际的大模型中，词汇表可能有几万个词，向量维度通常是512、768或1024，这个矩阵会非常大，但原理是一样的。

词嵌入的性质包括：

语义相似性（语义相近的词，向量距离如余弦相似度较小）
语义关系（词之间的关系可以通过向量运算表示，如"国王" - "男人" + "女人" ≈ "女王"）
上下文敏感性（现代大模型使用上下文相关的嵌入Contextual Embedding，同一词在不同语境下有不同的向量表示）。

从词到句子的理解过程大致分为6个步骤：

Token化（Tokenization）将输入文本切分为Token序列：T = [t_1, t_2, ..., t_n]
词嵌入（Embedding）将每个Token转换为向量：E = [e_1, e_2, ..., e_n]，其中e_i ∈ R^d
位置编码（Positional Encoding）为每个位置添加位置信息，使模型能够理解词序：P = [p_1, p_2, ..., p_n]输入表示：X = E + P（向量相加）
自注意力机制（Self-Attention）计算Token之间的相关性权重，建立词与词之间的语义关联：Attention(Q, K, V) = softmax(QK^T / √d_k)V其中Q（Query）、K（Key）、V（Value）都是输入X的线性变换
前馈网络（Feed-Forward Network）对每个位置的特征进行非线性变换，提取更复杂的特征表示
多层堆叠（Multi-Layer Stacking）：通过多个Transformer层（通常12-96层）逐层抽象，浅层学习局部语法和词级特征，中层学习短语和句法结构，深层学习语义和篇章级特征。

注意力机制

注意力机制通过计算Query、Key、Value之间的相似度，动态分配权重，使模型能够关注输入序列中的不同部分。注意力机制的核心优势包括：

并行计算（可以同时计算所有位置之间的注意力权重，提高计算效率）

长距离依赖（能够直接建模任意距离的Token之间的关系，不受距离限制）

可解释性（注意力权重可视化可以揭示模型关注的焦点）

多头注意力（Multi-Head Attention）使用多个注意力头并行计算，每个头关注不同的语义子空间，然后拼接融合，增强模型的表达能力。

上下文理解机制

大模型通过以下机制实现上下文理解：

自注意力机制（计算当前Token与序列中所有Token的关联度，建立全局上下文关系）

位置编码（通过位置编码或相对位置编码，使模型理解Token的绝对位置和相对位置关系）

上下文窗口（大模型的上下文窗口如4096、8192 Token允许模型同时处理长文本，保持对全局上下文的感知）

对话历史管理（在对话场景中，模型会将历史对话内容作为上下文输入，实现多轮对话的连贯性）。

大模型从理解到生成文本的完整流程：

编码阶段（Encoding）：输入文本通过编码器转换为上下文表示向量序列，编码了输入的语义信息。

解码阶段（Decoding）：解码器基于编码表示和已生成的内容，逐步生成下一个Token。使用掩码注意力确保只能看到已生成的Token，通过编码器-解码器注意力关注输入的相关部分，输出下一个Token的概率分布。

采样策略：根据概率分布采样生成Token，常见策略包括贪婪搜索（Greedy Search，选择概率最大的Token）、束搜索（Beam Search，保留多个候选序列）、核采样（Nucleus Sampling，从累积概率达到阈值的Token中采样）。

迭代生成：重复解码过程，直到生成结束标记或达到最大长度，完成文本生成。

Transformer架构

Transformer是一种基于注意力机制的深度学习架构，由Google在2017年的论文《Attention is All You Need》中提出。Transformer架构摒弃了循环神经网络（RNN）和卷积神经网络（CNN），完全基于自注意力机制构建，实现了并行计算和长距离依赖建模，成为大语言模型的基础架构。

Transformer的核心创新包括：自注意力机制（替代RNN的序列建模能力，实现并行计算）、位置编码（通过位置编码替代RNN的隐式位置信息）、残差连接和层归一化（解决深层网络的训练难题）

Transformer意为"转换器"，指其将输入序列转换为输出序列的能力。Transformer通过编码器-解码器架构，将输入文本转换为内部表示，再转换为输出文本，在整个过程中不断转换信息的表示形式。

GPT（Generative Pre-trained Transformer）是基于 Transformer 框架打造、能够自主生成文本的预训练语言模型。该模型只取用 Transformer 架构里的解码器，采用单向注意力机制，阅读文字只能从前往后，看不到尚未生成的内容；训练过程中，它依靠自回归建模的方式，不断学习通过前文推测下一个字词，以此熟悉语言逻辑；面对不同文字处理需求，只需输入提示词或是进行简单微调，它就能完成多种多样的自然语言相关工作。

发布于 2026年06月27日

被作者收录于人工智能

人工智能 3篇内容