我想使用监督学习技术构建一个 SMS 文本规范器。SMS 文本规范化是将 SMS 术语转换为正确英语的任务。
例如)'重量?嗯?会变成‘怎么了?你在家吗?'。
理想情况下,我想要一个现成的语料库,其中包含 SMS 文本和随后的英文文本作为训练数据。但是,我在网上找不到任何此类公开可用的数据集。(SMS 文本语料库可用,但没有语法正确英语的相应文本)以前处理过类似问题的人似乎已经手动注释了文本。
哪种方法是注释此文本的最快方法?可能,人们可以从标准短信转换网站/城市词典中为每个单词标记抓取数据,以获得等效的英语单词。但这仅适用于标准 SMS 文本,并且只会略微减少手动工作。
对语料库进行分区并要求个人手动对其进行注释,但这会非常慢,尤其是对于大量文本。