我正在尝试对使用快速文本文本分类的“好”短工作报告进行分类。在这个阶段,我只制作了一个标签“干扰行为”,我称之为 __label__int,因为我只是想看看它是否会起作用。我想将文本与它们与来自优秀报告的句子的匹配程度进行比较。我制作了自己的培训文本文档——其中的一个示例是:
__label__int 攻击性数据低且在出现时稳定。
__label__int 私奔频率已经减少到出现。
__label__int 财产破坏数据低且在发生时稳定。
__label__int 不合规频率在出现时停滞不前。
__label__int 发脾气持续时间较短且稳定在几分钟内。
__label__int 攻击频率呈上升趋势。
__label__int 哭泣百分比呈下降趋势。
__label__int 私奔频率呈下降趋势。
我写的代码是:
import fasttext
model = fasttext.train_supervised(input = 'Interfering Behavior Train.txt')
model.save_model("model_int-behavior.bin")
print_results(*model.test("test_valid.txt"))
但我不断收到以下输出:
读取 0M 字 字数:94 标签数:1 N 0 P@1 nan R@1 nan 进度:100.0% words/sec/thread:12881 lr:0.000000 avg.loss:0.000000 ETA:0h 0m 0s
text_valid.txt 是我知道其中包含这些术语的文件之一,所以我期待一个很好的比较。我在网上找不到任何关于如何编写自定义标记数据集的信息。也许我的训练数据有问题?字太多?还是我的代码不完整?