当这个集合被限制为 50 个州时,我如何训练以找到美国州的出现,因为我们需要大量数据(比如 1000 行)来训练某个标签。
问问题
72 次
1 回答
2
我认为这取决于您要在这里解决的任务。您是否需要区分某些两个字母组合是否为美国州名?只需一组简单的名称就可以吗?或者您正在尝试为州名称构建某种简单的 NER(https://en.wikipedia.org/wiki/Named-entity_recognition)?这样,您也可以从通过正则表达式进行简单匹配开始,但如果您想稍后训练一些模型 - 您有超过 50 个示例。您的数据集不仅仅是“这两个字母是否代表状态”,而是许多句子,其中有状态名称,或者根本没有。
于 2020-05-11T07:09:06.647 回答