AI 大模型入门

那说到大模型,首先需要回答两个问题,什么是人工智能, 什么是大语言模型,下面逐一解释:

问题一:什么是AI(人工智能)?

AI,全称Artificial Intelligence(人工智能),是指通过计算机系统模拟人类思维判断的技术和方法。AI的核心目标是使机器能够执行通常需要人类智能才能完成的任务,包括自然语言理解、图像识别、决策制定、问题解决等。

问题二:什么是大语言模型(LLM)?

大语言模型(Large Language Model,简称LLM),也称为大模型,是指参数量达到数十亿甚至数千亿级别的深度学习语言模型。LLM通过在大规模文本语料库上进行预训练,学习语言的统计规律和语义表示,从而具备理解、生成和处理自然语言的能力。

大模型的"大"体现在三个维度:

参数量大

参数量是模型可学习参数的总数,包括权重矩阵和偏置项。参数量决定了模型的容量(Capacity),即模型能够存储和表示的信息量。典型的大模型参数量包括:GPT-3有1750亿参数,GPT-4参数量未公开但估计在数千亿级别,PaLM有5400亿参数。参数量与模型能力存在正相关关系,但并非线性关系,还受训练数据质量、模型架构等因素影响。

训练数据规模大

大模型需要海量高质量文本数据进行预训练,训练语料库通常包含TB到PB级别的文本数据,数据来源包括网页文本、书籍、论文、代码等,数据多样性涵盖多种语言、领域和文体。大规模数据使模型能够学习到语言的通用规律和广泛的世界知识。

计算资源需求大

大模型的训练和推理需要巨大的计算资源:训练算力需要数千到数万块GPU,训练时间可达数周或数月;推理算力方面,单次推理需要大量内存和计算资源;存储需求方面,模型权重文件可达数百GB。

AI与大模型的关系?

AI(人工智能)是最大的技术范畴,包含了所有让机器具备智能的技术和方法。在这个广阔的领域中,机器学习是AI的核心分支,通过算法从数据中自动学习模式和规律。如下图:

image.png

机器学习内部包含多种学习范式:监督学习(需要标注数据)、无监督学习(从无标签数据中发现模式)、强化学习(通过与环境交互学习最优策略)。这些范式是机器学习的不同方法论,可以独立或组合使用。

深度学习是机器学习的一个子领域,位于机器学习的核心位置。深度学习基于多层神经网络,能够学习数据的层次化表示,是现代AI技术的重要基础。

生成式AI(Generative AI)是机器学习的一个应用方向,与深度学习有很强的关联。生成式AI专注于生成新的内容,大语言模型是生成式AI在文本领域的重要实现。

大语言模型(LLM)位于深度学习的核心,是深度学习技术在自然语言处理领域的典型应用。大语言模型基于Transformer架构,通过大规模预训练学习语言规律,代表了当前AI技术发展的前沿水平。

大模型的核心特点

通用性(Generalization):大模型通过大规模预训练学习到通用的语言表示,具备零样本(Zero-shot)和少样本(Few-shot)学习能力。单一模型可以处理多种下游任务,包括文本分类、问答、翻译、代码生成等,无需针对每个任务重新训练。

上下文理解能力(Context Understanding):大模型通过注意力机制和长上下文窗口,能够理解长文本中的语义关系、指代关系和逻辑结构,而不仅仅是基于关键词的匹配。

生成能力(Generation):大模型基于学习到的语言分布,能够生成连贯、流畅、符合语法和语义的文本内容,支持创意写作、代码生成、对话生成等任务。

大模型的重要性

大模型的出现标志着AI从专用模型(Narrow AI)向通用模型(General AI)的重要转变。传统AI模型需要针对每个具体任务单独设计和训练,而大模型通过预训练-微调(Pre-training + Fine-tuning)范式,实现了"一个模型,多种任务"的能力。

这种范式转变带来四个核心优势:降低开发成本(无需为每个任务从头训练模型)、提升模型性能(大规模预训练使模型学习到更丰富的语言知识)、增强泛化能力(预训练模型具备更好的跨任务迁移能力)、简化应用部署(统一的模型架构便于标准化部署和维护)。

image.png

大语言模型的应用场景

大语言模型的应用场景包括:对话系统(构建智能客服、虚拟助手等对话应用)、内容生成(文章写作、代码生成、创意内容创作)、机器翻译(多语言翻译,支持上下文感知翻译)、问答系统(基于知识库或开放域的知识问答)、代码助手(代码补全、代码解释、代码调试辅助)、文本分析(情感分析、文本摘要、信息抽取)、教育辅助(个性化学习、作业辅导、知识讲解)。

大模型的发展历程如下: 

2017年Google提出Transformer架构,奠定大模型技术基础; 

2018年BERT(Bidirectional Encoder Representations from Transformers)发布,双向编码器架构提升理解能力; 

2019年GPT-2发布,15亿参数,展现强大的文本生成能力;

2020年GPT-3发布,1750亿参数,展现零样本和少样本学习能力;

2022年ChatGPT发布,基于GPT-3.5,通过RLHF优化对话能力; 

2023年GPT-4发布,多模态能力,性能进一步提升; 

2023年至今开源大模型快速发展,如LLaMA、ChatGLM等。

大模型的发展趋势是从专用模型向通用基础模型转变,从单一模态向多模态扩展,从闭源向开源生态发展。

AI核心词汇解析

AIGC全称是AI Generated Content(AI生成内容),是指利用人工智能技术自动生成文本、图像、音频、视频等多媒体内容的技术和应用。AIGC区别于传统的内容生产方式,其核心特征是内容由AI模型基于学习到的数据分布生成,而非简单的检索、复制或模板填充。AIGC的主要应用形式包括文本生成(文章写作、代码生成、对话生成等)、图像生成(图像创作、风格迁移、图像编辑等)、音频生成(语音合成、音乐创作等)、视频生成(视频创作、视频编辑等)。AIGC的技术基础是生成式AI模型,大语言模型是文本AIGC的核心技术。

生成式AI(Generative AI)是机器学习的一个应用方向,专注于创建新的内容而非仅仅进行分类或预测。生成式AI通过学习数据的概率分布,能够生成与训练数据相似但全新的样本。生成式AI与深度学习有很强的关联,许多生成式模型都基于深度神经网络架构。

机器学习(Machine Learning)是AI的核心分支,其本质是通过算法从数据中自动学习模式和规律,而非依赖显式编程规则。机器学习通过优化算法调整模型参数,使模型能够对未见过的数据做出准确预测或决策。机器学习的基本流程包括:数据输入(提供训练数据集)、模型训练(算法自动学习数据中的模式)、参数优化(通过损失函数和优化算法调整模型参数)、模型评估(在测试集上验证模型性能)。

通俗理解:机器学习就是让电脑像人类一样从经验中学习。比如你小时候看很多猫照片,长大后一眼就能认出没见过的猫。机器学习也是这样:给电脑看一堆数据,它就学会了规律,能处理新情况。简单说就是:喂数据 → 让电脑学习规律 → 电脑变聪明,能预测新东西。

监督学习(Supervised Learning)监督学习是机器学习的一种范式,其特点是训练数据包含输入特征和对应的标签(正确答案)。模型通过学习输入-输出之间的映射关系,建立预测函数。监督学习的数据形式包括:输入为特征向量(如文本、图像的特征表示),输出为标签(如分类类别、回归数值),目标是学习从输入到输出的映射函数 f: X → Y。监督学习需要大量标注数据,标注质量直接影响模型性能。监督学习适用于有明确目标的任务,如图像分类、文本分类、回归预测等。 

通俗理解:监督学习就像老师教学生做题:每道题都有标准答案。给电脑看一堆标注好的例子(比如"这是猫"、"这是狗"),电脑就学会了怎么分类新照片。就像背单词:单词+中文释义,背多了自然会翻译新单词。需要很多"题+答案"的数据来学习。

无监督学习(Unsupervised Learning)无监督学习是指从没有标签的数据中学习数据的内在结构和模式。无监督学习的目标是发现数据中的隐藏规律,主要任务包括:聚类(将数据自动分组,发现数据中的自然类别)、降维(将高维数据映射到低维空间,保留主要信息)、密度估计(估计数据的概率分布)。无监督学习不需要标注数据,但学习目标不明确,评估难度较大。自监督学习是无监督学习的一种特殊形式,通过设计辅助任务(如预测下一个词、图像修复等)从无标签数据中学习表示,大语言模型的预训练阶段本质上是一种自监督学习。

通俗理解:无监督学习就像没人告诉你答案,让电脑自己找规律。比如扔一堆乐高积木在地上,电脑能自动把颜色相似的归类在一起,或者把形状一样的放在一起。不需要"标准答案",电脑自己探索数据里的模式。就像婴儿通过玩耍自己学会认识世界。

深度学习(Deep Learning)深度学习是机器学习的一个子领域,基于人工神经网络(Artificial Neural Network)构建多层非线性变换模型。深度学习的"深度"指的是网络具有多个隐藏层,能够学习数据的层次化表示:浅层学习低级特征(如边缘、纹理),中层学习中级特征(如形状、模式),深层学习高级特征(如语义、概念)。深度学习通过多层非线性变换,能够自动提取数据的复杂特征,在图像识别、自然语言处理、语音识别等领域取得了突破性进展。大语言模型基于深度神经网络架构(Transformer),通过多层注意力机制和前馈网络学习语言的复杂表示。 

通俗理解:深度学习就像多层滤镜:第一层认出线条,第二层组合成形状,第三层认出这是"猫脸"。通过很多层处理,电脑能从简单特征(线条、颜色)一步步理解复杂概念(这是只猫)。就像你看一张照片:先看到像素,再看到线条,再看到形状,最后认出"这是我家猫咪在睡觉"。

Token是大语言模型处理文本的基本单元,是模型输入输出的最小处理单位。文本在输入模型前需要经过Token化(Tokenization)过程,将原始文本切分成Token序列。



大模型参数

什么是参数? 

参数(Parameters)是神经网络中可学习的权重(Weights)和偏置(Biases)。参数是模型的核心组成部分,决定了模型如何将输入转换为输出。在大语言模型中,参数主要存储在注意力层、前馈网络层和嵌入层中。

一般大模型的参数都是十亿起步,比如GPT3 的参数规模是175B,1B(1 Billion)等于10亿(即(10^9))。 参数的本质包括:权重矩阵(连接不同层神经元的权重,决定信息如何传递和转换)、偏置项(为每个神经元添加的常数项,用于调整激活阈值)、参数值(通过训练过程学习得到,编码了语言的统计规律和语义知识)。

参数的作用机制:参数定义了模型的函数映射关系。给定输入文本,模型通过前向传播(Forward Propagation)计算,参数值决定了每一步计算的权重,最终得到输出概率分布。

参数量与模型能力的关系?

参数量与模型能力存在正相关关系,但遵循收益递减规律: 

参数量增加带来的能力提升包括:模型容量提升(能够表示更复杂的函数映射关系)、知识存储能力增强(能够编码更多的语言知识和世界知识)、泛化能力提升(在足够数据支持下,大模型泛化能力更强)。 

参数量增加的代价包括:计算成本(训练和推理的计算量随参数量线性或超线性增长)、内存需求(模型权重存储需求随参数量线性增长)、训练难度(大模型训练需要更复杂的分布式训练策略)。

参数量是模型能力的基础,但模型最终性能还取决于:

  1. 训练数据质量(数据规模、多样性、质量直接影响模型学习效果) 
  2. 模型架构设计(Transformer架构的层数、隐藏层维度、注意力头数等超参数) 
  3. 训练策略(学习率调度、优化器选择、正则化方法等训练技巧) 
  4. 对齐优化(通过监督微调、RLHF等技术优化模型行为)

因此,模型能力 = f(参数量, 数据质量, 架构设计, 训练策略),参数量是必要条件而非充分条件。

大模型 Token

什么是Token? 

Token是大语言模型处理文本的基本单元,是模型输入输出的最小处理单位。文本在输入模型前需要经过Token化(Tokenization)过程,将原始文本切分成Token序列。

Token与字符、词的关系:字符(Character)是最小的文字单位,如单个汉字、字母;词(Word)是有意义的文字组合,如"喜欢"、"AI";Token是模型处理的基本单位,可能是字符、词、词的一部分或标点符号。

Token的切分方法?

大模型主要使用子词(Subword)Tokenization方法,常见的有:

BPE(Byte Pair Encoding):通过迭代合并最频繁的字符对来构建词汇表。BPE能够平衡词汇表大小和Token数量,对未知词有较好的处理能力。 WordPiece:类似BPE,但基于概率模型选择合并对,BERT等模型使用。 SentencePiece:将文本视为Unicode字符序列,支持多语言统一处理。

Token化示例:中文"我喜欢AI"可能被切分为["我", "喜欢", "AI"]或["我", "喜", "欢", "AI"];英文"I love AI"可能被切分为["I", " love", " AI"](注意空格可能作为Token的一部分)。

为什么需要Token化?

用Token来表示的原因包括: 

  • 统一文本表示(不同语言的文字系统差异很大,Token化提供统一的文本表示方式,便于模型处理多语言文本) 
  • 处理未知词(子词Tokenization能够将未知词分解为已知的子词,提高模型的泛化能力) 
  • 平衡效率与效果(合理的Token切分能够在词汇表大小和序列长度之间取得平衡,既保证模型效率,又维持语义完整性) 
  • 适配模型架构(Transformer等模型架构要求输入是固定格式的Token序列,Token化是模型输入的必要预处理步骤)

Token数量与API成本

大模型API通常按Token数量计费。输入Token(Input Tokens)是用户发送给模型的文本Token数量,输出Token(Output Tokens)是模型生成回复的Token数量,总Token消耗 = 输入Token + 输出Token。成本计算示例:输入100个Token,输出200个Token,总消耗300个Token,成本 = 300 × 单价(通常输入和输出Token单价不同)。

Token数量如何估算?

不同语言的Token化效率不同:中文由于汉字是表意文字,通常1个汉字对应1-2个Token;英文由于使用子词切分,通常1个单词对应1个Token(简单词)或更多Token(复杂词);代码Token化通常保留语法结构,Token数量与代码复杂度相关。实际估算需要考虑具体Token化器的实现,不同模型的Token化结果可能不同。

Token限制(Context Window)

大模型对Token数量有严格限制,称为上下文窗口(Context Window)。输入长度限制:单次输入不能超过最大Token数,如GPT-3.5的4096 Token,GPT-4的8192或32768 Token;输出长度限制:单次生成有最大Token数限制;总长度限制:输入+输出不能超过模型的最大上下文窗口。

大模型文本理解原理

大模型通过将文本转换为数值向量来表示和理解文本。这个过程基于分布式表示假设:语义相似的词在向量空间中距离相近。模型通过大规模文本数据学习这种表示,使得向量空间中的几何关系反映语言的语义关系。

词嵌入(Word Embedding) 是将离散的词汇映射到连续向量空间的技术。每个词被表示为高维空间中的一个向量(通常维度为512、768、1024等),向量中的每个维度编码了词的某种语义或语法特征。

词嵌入的数学表示:词汇表V中的每个词w_i映射到向量e_i ∈ R^d,嵌入矩阵E ∈ R^(|V|×d)存储所有词的向量表示,通过查找表(Lookup Table)或矩阵乘法实现词到向量的转换。

举例说明:假设我们有一个简单的词汇表V = {"我", "喜欢", "AI"},共3个词(|V| = 3),向量维度d = 4(实际模型中通常是512或768等更大维度)。 

词汇表索引:w_0 = "我",w_1 = "喜欢",w_2 = "AI" 

每个词的向量表示(示例值):

e_0 = [0.2, 0.5, 0.1, 0.8] ("我"的向量) 

e_1 = [0.3, 0.4, 0.6, 0.2] ("喜欢"的向量) 

e_2 = [0.9, 0.1, 0.3, 0.5] ("AI"的向量)

嵌入矩阵E(3行×4列):

E = [
  [0.2, 0.5, 0.1, 0.8],  ← "我"的向量
  [0.3, 0.4, 0.6, 0.2],  ← "喜欢"的向量
  [0.9, 0.1, 0.3, 0.5]   ← "AI"的向量
]

查找表方式:当输入词"我"(索引为0)时,直接查找矩阵E的第0行,得到向量[0.2, 0.5, 0.1, 0.8]

矩阵乘法方式:用one-hot向量[1, 0, 0](表示"我")乘以矩阵E,得到对应的词向量

在实际的大模型中,词汇表可能有几万个词,向量维度通常是512、768或1024,这个矩阵会非常大,但原理是一样的。

词嵌入的性质包括: 

  • 语义相似性(语义相近的词,向量距离如余弦相似度较小) 
  • 语义关系(词之间的关系可以通过向量运算表示,如"国王" - "男人" + "女人" ≈ "女王") 
  • 上下文敏感性(现代大模型使用上下文相关的嵌入Contextual Embedding,同一词在不同语境下有不同的向量表示)。

从词到句子的理解过程大致分为6个步骤:

  1. Token化(Tokenization)将输入文本切分为Token序列:T = [t_1, t_2, ..., t_n]
  2. 词嵌入(Embedding)将每个Token转换为向量:E = [e_1, e_2, ..., e_n],其中e_i ∈ R^d
  3. 位置编码(Positional Encoding)为每个位置添加位置信息,使模型能够理解词序:P = [p_1, p_2, ..., p_n]输入表示:X = E + P(向量相加)
  4. 自注意力机制(Self-Attention)计算Token之间的相关性权重,建立词与词之间的语义关联:Attention(Q, K, V) = softmax(QK^T / √d_k)V其中Q(Query)、K(Key)、V(Value)都是输入X的线性变换
  5. 前馈网络(Feed-Forward Network)对每个位置的特征进行非线性变换,提取更复杂的特征表示
  6. 多层堆叠(Multi-Layer Stacking):通过多个Transformer层(通常12-96层)逐层抽象,浅层学习局部语法和词级特征,中层学习短语和句法结构,深层学习语义和篇章级特征。

image.png

注意力机制 

注意力机制通过计算Query、Key、Value之间的相似度,动态分配权重,使模型能够关注输入序列中的不同部分。注意力机制的核心优势包括: 

并行计算(可以同时计算所有位置之间的注意力权重,提高计算效率) 

长距离依赖(能够直接建模任意距离的Token之间的关系,不受距离限制) 

可解释性(注意力权重可视化可以揭示模型关注的焦点)

多头注意力(Multi-Head Attention)使用多个注意力头并行计算,每个头关注不同的语义子空间,然后拼接融合,增强模型的表达能力。

上下文理解机制

大模型通过以下机制实现上下文理解:

自注意力机制(计算当前Token与序列中所有Token的关联度,建立全局上下文关系)

位置编码(通过位置编码或相对位置编码,使模型理解Token的绝对位置和相对位置关系)

上下文窗口(大模型的上下文窗口如4096、8192 Token允许模型同时处理长文本,保持对全局上下文的感知)

对话历史管理(在对话场景中,模型会将历史对话内容作为上下文输入,实现多轮对话的连贯性)。 

大模型从理解到生成文本的完整流程: 

编码阶段(Encoding):输入文本通过编码器转换为上下文表示向量序列,编码了输入的语义信息。 

解码阶段(Decoding):解码器基于编码表示和已生成的内容,逐步生成下一个Token。使用掩码注意力确保只能看到已生成的Token,通过编码器-解码器注意力关注输入的相关部分,输出下一个Token的概率分布。 

采样策略:根据概率分布采样生成Token,常见策略包括贪婪搜索(Greedy Search,选择概率最大的Token)、束搜索(Beam Search,保留多个候选序列)、核采样(Nucleus Sampling,从累积概率达到阈值的Token中采样)。 

迭代生成:重复解码过程,直到生成结束标记或达到最大长度,完成文本生成。

Transformer架构

Transformer是一种基于注意力机制的深度学习架构,由Google在2017年的论文《Attention is All You Need》中提出。Transformer架构摒弃了循环神经网络(RNN)和卷积神经网络(CNN),完全基于自注意力机制构建,实现了并行计算和长距离依赖建模,成为大语言模型的基础架构。

Transformer的核心创新包括:自注意力机制(替代RNN的序列建模能力,实现并行计算)、位置编码(通过位置编码替代RNN的隐式位置信息)、残差连接和层归一化(解决深层网络的训练难题)

Transformer意为"转换器",指其将输入序列转换为输出序列的能力。Transformer通过编码器-解码器架构,将输入文本转换为内部表示,再转换为输出文本,在整个过程中不断转换信息的表示形式。

GPT(Generative Pre-trained Transformer) 是基于 Transformer 框架打造、能够自主生成文本的预训练语言模型。该模型只取用 Transformer 架构里的解码器,采用单向注意力机制,阅读文字只能从前往后,看不到尚未生成的内容;训练过程中,它依靠自回归建模的方式,不断学习通过前文推测下一个字词,以此熟悉语言逻辑;面对不同文字处理需求,只需输入提示词或是进行简单微调,它就能完成多种多样的自然语言相关工作。

被作者收录于 人工智能

人工智能 3篇内容
说说我的看法