在用于培训 CRF++ 的模板中,我如何包含一个dictionary.txt
用于上市公司的自定义文件,另一个用于流行欧洲食品的自定义文件,例如,或几乎任何类别。
然后为每个类别提供样本训练数据,从而了解这些特定命名实体如何在该类别的上下文中使用。
通过这种方式,我和系统可以确保它正确理解某些命名实体在文本中的结构,无论是推文还是普利策获奖新闻文章,而不是提供数百兆字节的数据。
这会很酷。模型将有一个明确的已知实体字典(不需要扩展)和一个关于这些已知实体如何在人类文本中结构化的统计方法。
PS - 只是为了清楚起见,而不是渴望正则表达式。只有当你在字典里有很多东西,很多规则和很多无聊的时间时,这些才是很酷的。