标记问题：介绍-白红宇

标记问题：介绍

阅读量：2439 次

发布时间：2019-05-10

本文共 642 字，大约阅读时间需要 2 分钟。

作者：chen_h

微信号 & QQ：862251340

微信公众号：coderpai

该系列将描述一些自然语言处理方面的技术，完整目录请点击。

在很多的 NLP 问题中，我们想对两个序列进行建模，词性标注（POS）问题可能是最早也是最有名的一个案例。在词性标注中，我们的目标是建立一个模型，它的输入是一个句子序列，比如：

模型的输出也是一个标签系列，比如：

（其中，D 表示定语，N 表示名词，V 表示动词）。标签序列的长度和输入序列的长度是一样的，也就是说每个词都会得到一个标签。（在本例子中，D 是 the 的标签，N 是 dog 的标签，V 是 saw 的标签，等等以此类推。）

我们使用 x1 … xn 序列来表示标记模型的输入：我们将这个称之为一个句子。比如上面的例子，我们的长度为 n = 5，其中 x1 = the，x2 = dog，x3 = saw，x4 = the，x5 = cat。我们将使用 y1，….，yn 表示标记模型的输出：我们将这个序列称为标签序列或者状态序列。在上面的例子中，我们有 y1 = D，y2 = N，y3 = V，等等。

这种类型的问题，其中的关键问题就是一个句子序列 x1，….，xn 映射到标签序列 y1，….，yn 。一般，我们将这个问题称为序列标注问题。

图一：标记问题。模型的输入是一个句子，模型的输出是一个标记好的句子，其中句子的每个词都被标记上了一个标签，比如：N 表示名词，V 表示动词，P 表示介词等等。

我们假设，我们有一个训练集：

其中，x^(i) 表示一个句子序列，y^(i) 表示一个标记序列，即：

我们的任务就是在训练集上面学习出一个映射模型，从输入序列映射到标记序列。

转载地址：http://ftdqb.baihongyu.com/

你可能感兴趣的文章