我想标记推文、文本(来自手机)和电子邮件。我发现这些特定于这些类型的通信的问题:
- 现代语言,充满动词;一些语料库在动词上看起来很糟糕
- 带有不良标点符号和句子片段的简短交流
- 新词“果冻豆版”或“ BYOD运动”或“你的银行是”
我想要一个对这种“不太雄辩”的文本具有鲁棒性的标记器,并且对于实时 Web 服务器来说仍然是快速且资源高效的。
哪个标注器(和语料库)是最好的选择?
大多数词性标注器使用 Penn Treebank 标签集,该标签集由 (Marcus, Santorini, & Ann, 1993) Penn Treebank 标签集包含 36 个不同的词性标签。
然而,由于缺乏传统的正字法,以及 140 个字符的限制,该集合不适合在推文上执行词性标注 (Gimpel, et al., 2011)。Gimpel 使用他们自己的标签集为 Twitter 实现了 POS 标签,其中包含一些特定的功能。这些功能确保了推文的标记一致性(Gimpel,et al.,2011),它们如下所示:
提及、主题标签和 URL 名称(通常大写的标记):用户可以有多种使用大写的方式,因为在撰写推文时没有任何协议
Metaph(语音规范化):用于规范许多单词的交替拼写。例如 {thanks, Thanksss, thnx,...} 代表单词“thank” 他们的标注器是一个条件随机场 (CRF) (Lafferty, McCallum, & Pereira, 2001)
. CRF 是用于模式识别和机器学习的一类统计方法。CRF 与其他分类器的主要区别在于 CRF 还考虑上下文,而其他分类器不考虑上下文。
来自 CRF 的这一派生特征和对标签集的增强提高了他们的标注器对 twitter 域的适应性,因此在他们的实验中,与斯坦福树标注器相比,他们获得了更好的准确度(89. 39% 与 85.85% 相比)。
承认该方法优于当前方法的事实,仍然存在重大挑战,即从非标准大写到专有名词,或从包括晦涩符号在内的稀有标记到杂项类别的错误分类。(Gimpel 等人,2011 年)