1

我想使用监督学习技术构建一个 SMS 文本规范器。SMS 文本规范化是将 SMS 术语转换为正确英语的任务。

例如)'重量?嗯?会变成‘怎么了?你在家吗?'。

理想情况下,我想要一个现成的语料库,其中包含 SMS 文本和随后的英文文本作为训练数据。但是,我在网上找不到任何此类公开可用的数据集。(SMS 文本语料库可用,但没有语法正确英语的相应文本)以前处理过类似问题的人似乎已经手动注释了文本。

  1. 哪种方法是注释此文本的最快方法?可能,人们可以从标准短信转换网站/城市词典中为每个单词标记抓取数据,以获得等效的英语单词。但这仅适用于标准 SMS 文本,并且只会略微减少手动工作。

  2. 对语料库进行分区并要求个人手动对其进行注释,但这会非常慢,尤其是对于大量文本。

4

1 回答 1

0

构建带注释的语料库需要付出很多努力(请参阅本文中的相关工作)。你现在有选择:

  • 您可以从头开始进行所有注释。(耗时长且容易出错)
  • 您可以使用生成注释的工具(例如,lemmatizer),您可以更正它们。(更快的方式)

对我们来说,使用自定义注释工具很有效(见论文链接)。该工具结合了两种解决方案并加快了注释过程。

于 2015-07-24T11:59:54.100 回答