我有一堆纯文本文件,我想分类为 A 类或 B 类。
对于训练,我正在考虑将类型作为 A 类或 B 类添加到每个文件中,并尝试识别一些可以预测文件类型的特征。我可以创建纯文本语料库,但有没有办法在创建语料库时添加文件的类型?
我有一堆纯文本文件,我想分类为 A 类或 B 类。
对于训练,我正在考虑将类型作为 A 类或 B 类添加到每个文件中,并尝试识别一些可以预测文件类型的特征。我可以创建纯文本语料库,但有没有办法在创建语料库时添加文件的类型?
我建议使用 NLTK 的CategorizedPlaintextCorpusReader。文本文件必须根据它们的类别/类型命名,并且您必须将正则表达式传递给构造函数,告诉 NLTK 哪个文件属于哪个类别。
该文档指出:
用于查找每个文件标识符的类别的正则表达式模式。该模式将应用于每个文件标识符,第一个匹配组将用作该文件的类别标签。
除了模式之外,您还可以传递包含文件标识到类别名称的映射的字典或文本文件。请注意,每个文本文件可以属于多个类别。
有关代码示例,请参阅此博客条目。