text - 为什么每种语言都需要分词器？

Question

在处理文本时，为什么需要专门针对该语言的分词器？

用空格进行标记还不够吗？在哪些情况下，仅使用空白标记化不是一个好主意？

score 20 · Accepted Answer

标记化是从表面文本中识别具有语言意义的单位(LMU)。

中文：如果您在新加坡只能前往夜间娱乐场所，Zouk 必然是您的不二之选。</p>
Chinese : 如果你在新加坡只有一个俱乐部的时间，那么它就是 Zouk。

印度尼西亚语：Jika Anda hanya memiliki waktu untuk satu klub di Singapura, pergilah ke Zouk。

日语：シンガポールで一つしかクラブに行く时间がなかったとしたら、このズークに行くべきです。</p>
韩语: 싱가포르에서 클럽 한 군데밖에 갈시간이 없다면, Zouk를 선택하세요。

越南语: Nếu bạn chỉ có thời gian ghé thăm một câu lạc bộ ở Singapore thì hãy đến Zouk。

文字来源：http ://aclweb.org/anthology/Y/Y11/Y11-1038.pdf

上面并行文本的标记化版本应如下所示：

在此处输入图像描述

对于英语，这很简单，因为每个 LMU都由空格分隔/分隔。但是在其他语言中，情况可能并非如此。对于大多数罗马化语言，例如印度尼西亚语，它们具有相同的空格分隔符，可以轻松识别 LMU。

但是，有时 LMU 是由空格分隔的两个“单词”的组合。例如，在上面的越南语句子中，您必须将thời_gian（在英语中表示时间）作为一个标记而不是 2 个标记来阅读。将这两个词分成 2 个标记不会产生 LMU（例如http://vdict.com/th%E1%BB%9Di,2,0,0.html）或错误的 LMU（例如http://vdict. com/gian,2,0,0.html )。因此，适当的越南语标记器将输出thời_gian为一个标记而不是thờiand gian。

对于其他一些语言，它们的正字法可能没有空格来分隔“单词”或“标记”，例如中文、日文，有时还有韩文。在这种情况下，标记化对于计算机识别 LMU 是必要的。通常有语素/变形附加到 LMU，因此有时 amorphological analyzer在自然语言处理中比分词器更有用。

score 5 · Accepted Answer

有些语言，比如中文，根本不使用空格来分隔单词。

其他语言会以不同的方式使用标点符号——例如，撇号可能是也可能不是单词的一部分。

案例折叠规则因语言而异。

语言之间的停用词和词干不同（尽管我想我在这里从分词器转向分析器）。

Bjerva 编辑：此外，许多语言连接复合名词。是否应该将其标记为多个标记不能仅使用空格轻松确定。

score 4 · Accepted Answer

这个问题还暗示“什么是词？” 并且可以是非常特定于任务的（甚至不考虑多语言作为一个参数）。这是我尝试包含的答案：

（缺少）单词之间的空格

许多语言根本不在单词之间放置空格，因此打破空格的基本分词算法根本没有用。此类语言包括主要的东亚语言/文字，例如中文、日语和泰语。古希腊语也是由古希腊人编写的，没有单词空间。后来来的人引入了空格（连同重音符号等）。在这样的语言中，分词是一项更加重要和具有挑战性的任务。（曼尼：1999，第 129 页）

化合物

德语复合名词写成单个词，例如“Kartellaufsichtsbehördenangestellter”（“反托拉斯机构”的雇员），而复合词事实上是单个词 - 语音学（参见 (MANNI:1999, p. 120)） . 然而，它们的信息密度很高，人们可能希望分割这样的复合词，或者至少要了解单词的内部结构，这成为一项有限的分词任务。（同上）

还有粘着语言的特例；介词，所有格代词，......“附加”到“主要”词；例如欧洲领域的芬兰语、匈牙利语、土耳其语。

变体样式和编码

特定语义类型信息的变体编码例如电话号码、日期等的本地语法：

[...]即使不处理多语言文本，任何处理来自不同国家的文本或根据不同文体惯例编写的应用程序都必须准备好处理印刷差异。特别是，电话号码等某些项目显然属于一种语义类型，但可以以多种格式出现。（曼尼：1999，第 130 页）

杂项。

一项主要任务是消除句号（或一般的间断）和其他非字母（-数字）符号：如果句号是单词的一部分，请保持这种状态，以便我们可以区分 Wash.，它的缩写华盛顿州，来自动词wash 的大写形式（MANNI:1999, p.129）。除了这样的情况，处理收缩和连字符也不能被视为跨语言的标准情况（即使忽略缺少的空格分隔符）。

如果要处理多语言收缩/“cliticons”：

Chinese:他们是我父亲的表兄弟。
法语：Montrez-le à l'agent！
德语：Ich hab's ins Haus gebracht。（in's 仍然是一个有效的变体）

由于标记化和句子分割齐头并进，它们共享相同的（跨语言）问题。它可能关注/想要一个大方向的人：

吻、蒂博尔和扬·斯特伦克。2006. 无监督多语言句子边界检测。计算语言学 32(4)，p。485-525。
Palmer, D. 和 M. Hearst。1997. 自适应多语言句子边界消歧。计算语言学，23(2)，p。241-267。
Reynar, J. 和 A. Ratnaparkhi。1997. 识别句子边界的最大熵方法。第五届应用自然语言处理会议论文集，p。16-19。

参考

(MANNI:1999) Manning Ch. D.，H. Schütze。1999. 统计自然语言处理的基础。马萨诸塞州剑桥：麻省理工学院出版社。

text - 为什么每种语言都需要分词器？

3 回答 3

Related

Reference