Nicander知识小站

词袋(bag-of-words)：是一种表示非结构化文本的方法[插图]。它早在20世纪50年代就被提出，但直到2000年前后才开始流行。
- 工作原理：首先进行分词(tokenization)，将将句子拆分成单个词或子词**（词元，token）。在分词之后，我们将每个句子中所有不同的词组合起来，创建一个可用于表示句子的词表(vocabulary)**。
- 词袋忽略了文本的语义特性和含义，仅仅把语言视为一个字面意义上的“词袋”。
**word2vec（词向量）：**利用嵌入(embedding)这个概念来捕捉文本含义。嵌入是数据的向量表示。
- 词嵌入非常有用，因为它使我们能够衡量两个词的语义相似度。
LLM 由其生成模型本身和其底层的分词器（tokenizer）组成。
- 分词器承担一个类似于“翻译“的工作。
- 没有分词器，模型无法理解输入文本，也无法把生成的词元转回字符串；反之，只有分词器而没有模型，也无法进行任何生成。