python - Python NLTK：用于对未标记数据进行分类的监督学习，没有可用的标记数据

翻译自：https://stackoverflow.com/questions/15591551 2013-03-23T20:12:37.627

647 次

我正在尝试从文本中提取基于时间的信息，据我所知，标记数据不存在。目标是获取句子并提取有关例如何时到期的信息。这可能有多种形式——其中一些是模棱两可的（1 到 12 之间的数字是一段时间的常见表示，但当然并非总是如此）。似乎最好的方法是训练一个分类器来检测这些数据。

然而，虽然 NLTK 提供了数千个句子，但它没有用于此特定目的的标记数据。我想知道是否有一种明智的方法可以用来手动对一些数据进行分类，这样我以后可以将其用作分类器的训练/测试数据。理想情况下，它应该是图形化的，并允许点击相关条款，但我认为这是一个荒谬的要求。或者，考虑到我可能不想手动分类数千个句子，是否有更好的方法可以使用？我在这里是否完全正确，或者如果没有可用的标记数据，分类器系统根本不可行？

谢谢，卡勒姆

python - Python NLTK：用于对未标记数据进行分类的监督学习，没有可用的标记数据

0 回答 0

Related

Reference