当前位置：首页 > news >正文

分词器模型

news 2025/10/22 18:00:19

中文分词是NLP中一个独特且富有挑战性的任务，因为中文文本没有像英文空格那样的天然词语边界。

现代分词器模型（尤其是基于Transformer的模型如BERT、GPT等使用的中文分词器）主要采用子词分词算法，但其处理方式与英文有显著不同。

特性	传统中文分词器 (如Jieba, HanLP)	现代模型分词器 (如BERT的分词器)
目标	将文本切分成语言学意义上的词。	将文本切分成对模型训练最有效的单元。
输出	词的序列。`[“我”， “喜欢”， “读书”]`	子词/字符的序列。`[“我”， “喜”， “欢”， “读”， “书”]` 或 `[“我”， “喜欢”， “读”， “书”]`
歧义处理	需要复杂的算法（如HMM、CRF）来解决分词歧义（如“乒乓球拍卖完了”）。	将问题抛给模型。模型在预训练过程中通过上下文自行学习消歧。
与模型关系	独立于下游的NLP模型，是预处理步骤。	深度集成，是模型的一部分，分词方式与模型架构共同设计。

主流的中文分词器（如BERT、ERNIE等使用的）并不像传统中文分词器那样先进行“词”的切分，而是将句子切分成更小的、更灵活的单元。主要有两种策略：

1. 字符级分词

这是最简单直接的方法。

做法：将每个汉字或标点符号视为一个独立的Token。
示例：
- 文本： "我喜欢读书"
- 分词结果： [“我”, “喜”, “欢”, “读”, “书”]
优点：
- 非常简单，无需复杂的分词算法。
- 词汇表很小（几千个常用汉字就足以覆盖绝大多数文本）。
- 完全避免了分词歧义问题。
缺点：
- 序列长度会很长。
- 模型需要从零学习词语和短语的语义，增加了学习负担。例如，模型需要自行理解“喜欢”是一个整体，而不是“喜”和“欢”的简单相加。
使用模型：很多早期的中文BERT模型（如Google官方发布的bert-base-chinese）就采用这种方式。

2. 子词分词（主要是WordPiece）

这是目前更主流、效果更好的方法。它结合了字符级和词级的优点。

做法：
1. 首先，它会有一个通过大量中文语料训练得到的词汇表。这个词汇表中不仅包含常用汉字，也包含常见的词语和词缀。
2. 对于一个句子，它首先尝试匹配最长的、在词汇表中存在的单元。如果找不到，就把词拆分成更小的子词，直到所有部分都在词汇表中。
示例：
- 词汇表包含词语：
  - 文本： "人工智能很强大"
  - 分词结果： [“人工”, “##智能”, “很”, “强大”]
  - 说明： “人工智能”被拆成了“人工”和“##智能”，其中##表示这是一个词的后续部分。“强大”作为一个整体词存在于词汇表中。
- 词汇表不包含词语：
  - 文本： "韮菜盒子"
  - 分词结果： [“韮”, “##菜”, “盒”, “##子”]
  - 说明： “韮菜”可能不在词汇表里，所以被拆成“韮”和“##菜”。“盒子”被拆成“盒”和“##子”，这是一种常见的子词组合。
优点：
- 平衡了词汇表大小和语义：常见词保持完整，生僻词或新词可以拆解。
- 更好的泛化能力：模型能通过“##子”理解“盒子”、“鞋子”、“孩子”等有共同词缀的词。
- 效率更高：序列长度比纯字符级短。
使用模型：很多后续优化的中文模型（如ERNIE, RoBERTa-wwm-ext）都采用了这种更智能的子词分词。

BERT（Bidirectional Encoder Representations from Transformers）分词器是 BERT 模型预处理的核心组件，其主要作用是将原始文本转换为模型可理解的 token 序列。以下从输入、输出、模型结构及处理流程四个方面详细叙述：

一、输入

BERT 分词器的输入是原始自然语言文本，可以是单句、句子对（如问答中的问题和上下文），或段落文本。

对于单句输入：直接输入单个字符串（如 “我爱自然语言处理”）。
对于句子对输入：输入两个字符串（如（“What is BERT?”，“It is a language model.”））。

二、输出

分词器的输出是经过处理的token 序列及辅助信息，具体包括：

input_ids：将 token 映射为整数索引的序列（模型输入的核心）。
token_type_ids：用于区分句子对中不同句子的标记（单句时全为 0，句子对时第一句为 0、第二句为 1）。
attention_mask：用于标记有效 token（1 表示有效，0 表示填充的 padding token）。
tokens（可选）：分词后的原始 token 列表（如 ['[CLS]', ' 我 ', ' 爱 ', ' 自然 ', ' 语言 ', ' 处理 ', '[SEP]']）。

三、模型结构

BERT 分词器采用WordPiece 分词算法，其核心结构包括：

基础分词器（Basic Tokenizer）：
- 负责预处理：将文本按标点、空格分割为 “词片段（word pieces）”，处理大小写（统一转为小写）、去除重音符号等。
- 例如，英文中 “don't” 会被拆分为 “do” 和 “n't”，中文则按字符初步分割（因中文无空格）。
WordPiece 分词器：
- 基于预定义的词表（vocab.txt），将基础分词器的输出进一步拆分为 “子词（subword）”，规则是 “尽可能保留完整词，无法匹配时拆分为更小单位”。
- 词表包含：基础词、子词（以 “##” 前缀表示非词首的子词，如 “##ing”）、特殊符号（如[CLS]、[SEP]、[PAD]、[UNK]）。

四、处理流程

以句子对（“我爱 NLP”，“它是一个模型”）为例，详细流程如下：

文本预处理（基础分词器）：
- 转换大小写（中文无此步）、去除特殊符号，将句子按字符 / 空格分割为初始片段。
- 示例：第一句分割为 ["我", "爱", "NLP"]，第二句分割为 ["它", "是", "一", "个", "模", "型"]。
WordPiece 子词拆分：
- 对每个初始片段，查询词表，若存在则保留，否则递归拆分为子词，直到匹配或拆分为单个字符（若仍不匹配则标记为[UNK]）。
- 示例：“NLP” 在词表中存在，直接保留；中文词汇通常按单字拆分（因 BERT 中文词表以单字为主）。
添加特殊符号：
- 在序列开头添加[CLS]（用于分类任务的聚合特征）。
- 在句子对之间及序列末尾添加[SEP]（分隔句子）。
- 处理后序列：[CLS] 我爱 NLP [SEP] 它是一个模型 [SEP]。
生成辅助信息：
- input_ids：将每个 token 映射为词表中的整数（如[CLS]→101，[SEP]→102，“我”→2769 等）。
- token_type_ids：[CLS]到第一个[SEP]为 0（第一句），之后为 1（第二句），即[0,0,0,0,0,1,1,1,1,1,1,1]。
- attention_mask：若序列长度不足模型最大长度（如 128），用[PAD]填充，对应位置 mask 为 0，其他为 1。
输出结果：
- 最终输出 input_ids、token_type_ids、attention_mask，作为 BERT 模型的输入。

BERT 分词器通过 “基础分词 + WordPiece 子词拆分” 实现对文本的细粒度处理，既缓解了未登录词（OOV）问题，又保留了词的语义完整性，同时通过特殊符号和辅助信息适配模型的双向编码需求，是 BERT 模型性能的重要保障。

BERT 词汇表中每个词（token）对应的向量

BERT 词汇表中每个词（token）对应的向量（即词嵌入，Word Embedding）并非固定的预定义向量，而是通过模型训练动态学习得到的，其生成过程与 BERT 的预训练任务紧密关联。具体来说，可分为以下几个关键环节：

1. 词汇表与初始向量的初始化

BERT 的词汇表（vocab.txt）包含约 30k 个 token（不同版本可能略有差异，如基础版 30522 个），涵盖子词、特殊符号（[CLS]、[SEP]等）和常见词。在模型训练开始前，每个 token 会被随机分配一个初始向量（维度与 BERT 的隐藏层维度一致，如基础版为 768 维）。这些初始向量是随机生成的（通常服从正态分布），不携带任何语义信息，仅作为训练的起点。

2. 词嵌入的动态学习过程

BERT 的词嵌入是在预训练过程中通过反向传播不断更新的，其学习目标与模型的预训练任务直接相关。BERT 的核心预训练任务包括：

掩码语言模型（MLM）：随机掩盖输入序列中的部分 token（如 15% 的 token），让模型预测被掩盖的 token。
下一句预测（NSP）：判断两个句子是否为连续的上下文。

在训练过程中，模型通过以下方式优化词嵌入：

对于 MLM 任务，当模型预测被掩盖的 token 时，其输出会与真实 token 的嵌入进行比对（通过交叉熵损失计算误差），误差会反向传播到词嵌入层，更新对应 token 的向量。
对于 NSP 任务，模型通过[CLS] token 的向量进行分类，其误差同样会影响所有 token 的嵌入更新（因为[CLS]的向量依赖于整个序列的编码结果）。

通过海量文本（如 Wikipedia 和 BookCorpus）的预训练，词嵌入会逐渐捕捉到 token 的语义信息：

语义相近的 token（如 “猫” 和 “狗”）的向量会在高维空间中距离更近。
子词的向量会携带其在完整词中的语义贡献（如 “##ing” 的向量与动词的进行时态相关）。

3. 词嵌入的最终形态

预训练结束后，词汇表中每个 token 的向量被固定下来，成为模型权重的一部分。这些向量的特点是：

上下文无关的基础向量：BERT 的词嵌入层输出的是 “基础向量”，但最终输入 Transformer 编码器的是 “基础向量 + 段嵌入 + 位置嵌入” 的总和（段嵌入区分句子对，位置嵌入编码 token 的位置信息）。
动态适配语境：尽管基础向量是固定的，但 Transformer 编码器会通过自注意力机制对其进行动态调整，最终输出的是上下文相关的向量（即 BERT 的核心能力）。但词汇表中存储的仍是预训练得到的基础向量。

MLM网络结构详细分解

1. 输入表示 (Input Representation)

输入是一个经过处理的句子（或一对句子），其中部分Token被特殊处理。

原始Token: [CLS] 我爱自然语言处理 [SEP]
MLM处理后的Token（如图）：
- 随机选择15%的Token作为待预测候选。
- 在这15%中：
  - 80%的概率替换为 [MASK]：例如 “爱” -> [MASK]
  - 10%的概率替换为随机Token：例如 “语言” -> “苹果” (但此例中我们仍展示为更常见的[MASK])
  - 10%的概率保持不变：例如 “语言” -> “语言” (但此例中我们仍展示为更常见的[MASK])
- 最终输入模型的是： [CLS] 我 [MASK] 自然 [MASK] 处理 [SEP]

每个Token的输入表示由三部分相加构成：

Token Embeddings: 词嵌入，[MASK] 有自己对应的嵌入向量。
Segment Embeddings: 句子分段嵌入，用于区分两个句子。
Position Embeddings: 位置嵌入，表示每个Token在序列中的顺序。

2. BERT主干网络 (Backbone Network)

结构: 一个多层的（例如12层或24层）Transformer编码器堆叠而成。
核心机制: 每一层都包含一个多头自注意力机制和一个前馈神经网络。
功能: 通过自注意力机制，每个位置的Token都能与序列中的所有其他Token进行交互，从而生成一个上下文感知的编码向量。
输入输出:
- 输入: 序列的嵌入表示 (batch_size, sequence_length, hidden_size)。
- 输出: 经过深层Transformer编码后的序列表示，形状与输入相同。图中的 [MASK] 位置对应的输出向量，已经包含了来自全局上下文的信息，用于预测原始词。

3. MLM输出层 (MLM Head)

这是MLM任务特有的部分，它只应用于被Mask的位置（或其候选位置）。

输入: BERT最后一层输出的、对应被Mask位置的上下文向量（例如，图中“爱”和“语言”位置对应的输出向量 T_[MASK]1 和 T_[MASK]2）。
结构:
1. 一个线性层: 通常是一个前馈网络，使用GELU激活函数。这一步的作用是进行特征变换和降维（有时）。
2. Layer Normalization: 对输出进行标准化，稳定训练过程。
3. 输出权重矩阵: 这是最关键的一步。使用BERT输入嵌入矩阵 W_embedding 的转置作为输出层的权重矩阵。
  - 动机: 这被称为权重绑定，可以减少模型参数，并被认为能使输入和输出空间保持一致，提升模型性能。
输出: 一个大小为 vocab_size（例如30522）的概率分布。通过Softmax函数计算，表示该被Mask位置是词汇表中每个词的可能性。
- 对于第一个 [MASK]，模型会输出一个分布，其中 “爱” 的概率应该最高。
- 对于第二个 [MASK]，会输出另一个分布，其中 “语言” 的概率应该最高。

4. 损失计算 (Loss Calculation)

计算方式: 使用交叉熵损失。
范围: 仅计算被Mask的那些位置的损失。图中未被Mask的位置（如“我”、“自然”、“处理”等）的输出不参与MLM的损失计算。
目标: 通过优化这个损失，BERT学会了如何根据上下文来预测被遮盖的词语，从而深入理解语言的内在规律。

训练模式 vs. 推理模式的重要区别

训练: 如上所述，模型可以同时看到多个被 [MASK] 的Token，并并行地预测它们。因为训练时我们有真实标签，计算损失不需要依赖上一个预测结果。
推理: 标准的BERT本身并不直接用于像传统语言模型那样逐词生成文本。如果需要用MLM方式进行预测，通常做法是：
1. 每次只Mask一个Token（或少量Token）。
2. 让模型预测这个Token。
3. 用预测出的词替换掉 [MASK]，再预测下一个。
  但这种方式效率很低。所以BERT通常用于完形填空（一次预测一个Mask）或作为特征提取器，而不是自回归文本生成。