machine-learning - 使用 BERT 对给定的字符长度或句子中的单词数进行分类

Question

我有一个标题数据集，它们的描述和对应于描述是否有效的 0 或 1。我希望能够根据 BERT 以及描述的字符/字数来分类它们是否有效。我该怎么做？

score 1 · Accepted Answer

这个问题有点宽泛，但你可以从以下开始：

您可能可以使用Colabert 处理器，它是二进制分类问题的合适处理器。

您可以将 Titles 视为 ID，因为它不应该影响训练，并且可以唯一标识描述。

根据需要的问题创建 TSV 文件，您可以使用 Cola 任务的 Glue 数据来查看如何为 bert 格式化数据。

一般训练集和开发集有 4 列，即、id、class、segment ID，text data而测试集只有 2 列id和text data。

一旦获得所需格式的数据，您就可以执行微调。您可以使用run_classifier.py脚本进行微调。作者在此处记录了使用上述脚本进行微调的方法

1 回答 1