python - 哪种标注器（和培训）最适合休闲交流；在网络服务器中？

Question

我想标记推文、文本（来自手机）和电子邮件。我发现这些特定于这些类型的通信的问题：

现代语言，充满动词；一些语料库在动词上看起来很糟糕
带有不良标点符号和句子片段的简短交流
新词“果冻豆版”或“ BYOD运动”或“你的银行是”

我想要一个对这种“不太雄辩”的文本具有鲁棒性的标记器，并且对于实时 Web 服务器来说仍然是快速且资源高效的。

哪个标注器（和语料库）是最好的选择？

score 0 · Accepted Answer

大多数词性标注器使用 Penn Treebank 标签集，该标签集由 (Marcus, Santorini, & Ann, 1993) Penn Treebank 标签集包含 36 个不同的词性标签。

然而，由于缺乏传统的正字法，以及 140 个字符的限制，该集合不适合在推文上执行词性标注 (Gimpel, et al., 2011)。Gimpel 使用他们自己的标签集为 Twitter 实现了 POS 标签，其中包含一些特定的功能。这些功能确保了推文的标记一致性（Gimpel，et al.，2011），它们如下所示：

Twitter正字法：用于检测@

提及、主题标签和 URL 名称（通常大写的标记）：用户可以有多种使用大写的方式，因为在撰写推文时没有任何协议

Metaph（语音规范化）：用于规范许多单词的交替拼写。例如 {thanks, Thanksss, thnx,...} 代表单词“thank” 他们的标注器是一个条件随机场 (CRF) (Lafferty, McCallum, & Pereira, 2001)

. CRF 是用于模式识别和机器学习的一类统计方法。CRF 与其他分类器的主要区别在于 CRF 还考虑上下文，而其他分类器不考虑上下文。

来自 CRF 的这一派生特征和对标签集的增强提高了他们的标注器对 twitter 域的适应性，因此在他们的实验中，与斯坦福树标注器相比，他们获得了更好的准确度（89. 39% 与 85.85% 相比）。

承认该方法优于当前方法的事实，仍然存在重大挑战，即从非标准大写到专有名词，或从包括晦涩符号在内的稀有标记到杂项类别的错误分类。（Gimpel 等人，2011 年）

参考：推文情感分析的自然语言处理技术评估

python - 哪种标注器（和培训）最适合休闲交流；在网络服务器中？

1 回答 1

Twitter正字法：用于检测@

Related

Reference