1

我正在尝试从文本中提取基于时间的信息,据我所知,标记数据不存在。目标是获取句子并提取有关例如何时到期的信息。这可能有多种形式——其中一些是模棱两可的(1 到 12 之间的数字是一段时间的常见表示,但当然并非总是如此)。似乎最好的方法是训练一个分类器来检测这些数据。

然而,虽然 NLTK 提供了数千个句子,但它没有用于此特定目的的标记数据。我想知道是否有一种明智的方法可以用来手动对一些数据进行分类,这样我以后可以将其用作分类器的训练/测试数据。理想情况下,它应该是图形化的,并允许点击相关条款,但我认为这是一个荒谬的要求。或者,考虑到我可能不想手动分类数千个句子,是否有更好的方法可以使用?我在这里是否完全正确,或者如果没有可用的标记数据,分类器系统根本不可行?

谢谢,卡勒姆

4

0 回答 0