我正在开发一个应用程序,我想使用自然语言处理从文本中推断出一般类别。我是自然语言处理 (NLP) 的新手。
Google Natural Language API 使用一组合理的高级内容类别(例如“/Arts & Entertainment”、“/Hobbies & Leisure”等)来做到这一点:
https://cloud.google.com/natural-language/docs/categories
我希望使用开源来做到这一点,并希望使用一些通用类别,例如 Wikipedia 高级分类:
https://en.wikipedia.org/wiki/Category:Main_topic_classifications
fasttext 似乎是一个不错的选择,但我正在努力寻找用于培训的语料库。我确实看到了维基百科词向量文件,并且可以获得完整的维基百科下载,但我没有看到一种简单的方法来获取带有 fasttext 类别标签的文章。
是否有一些开源工具可以识别给定一些文本的高级通用类别——或者是否有我可以使用的训练数据集?