目前我正在做一个需要关键字提取的项目,或者我们可以说基于关键字的文本分类。数据集包含 3 列文本、关键字和 cc 术语,我需要从文本中提取关键字,然后根据这些关键字对文本进行分类,数据集中的每一行都有自己的关键字,我想提取相似类型的关键字。我想通过提供文本和关键字列来训练模型,以便模型能够提取未知文本的关键字。请帮助
问问题
201 次
1 回答
1
关键字提取通常使用TF-IDF 分数完成,只需设置分数阈值。在训练分类器时,在某个阈值处截断关键字没有多大意义,因为知道某事不太可能是关键字也可能是分类器的一条有价值的信息。
获取特定单词的 TF-IDF 分数的最简单方法是在 scikit-learn 中使用TfIdfVectorizer ,它会执行所有费力的文本预处理步骤(标记化、删除停用词)。
您可以通过为分类任务微调 BERT 来获得更好的结果(但当然要以更高的计算成本为代价)。
于 2020-12-01T10:30:40.037 回答