python - Python 快速文本文本分类

翻译自：https://stackoverflow.com/questions/69336872 2021-09-26T16:34:35.217

194 次

我正在尝试对使用快速文本文本分类的“好”短工作报告进行分类。在这个阶段，我只制作了一个标签“干扰行为”，我称之为 __label__int，因为我只是想看看它是否会起作用。我想将文本与它们与来自优秀报告的句子的匹配程度进行比较。我制作了自己的培训文本文档——其中的一个示例是：

__label__int 攻击性数据低且在出现时稳定。
__label__int 私奔频率已经减少到出现。
__label__int 财产破坏数据低且在发生时稳定。
__label__int 不合规频率在出现时停滞不前。
__label__int 发脾气持续时间较短且稳定在几分钟内。
__label__int 攻击频率呈上升趋势。
__label__int 哭泣百分比呈下降趋势。
__label__int 私奔频率呈下降趋势。

我写的代码是：

import fasttext

model = fasttext.train_supervised(input = 'Interfering Behavior Train.txt')
model.save_model("model_int-behavior.bin")

print_results(*model.test("test_valid.txt"))

但我不断收到以下输出：

读取 0M 字字数：94 标签数：1 N 0 P@1 nan R@1 nan 进度：100.0% words/sec/thread：12881 lr：0.000000 avg.loss：0.000000 ETA：0h 0m 0s

text_valid.txt 是我知道其中包含这些术语的文件之一，所以我期待一个很好的比较。我在网上找不到任何关于如何编写自定义标记数据集的信息。也许我的训练数据有问题？字太多？还是我的代码不完整？

python - Python 快速文本文本分类

0 回答 0

Related

Reference