我有一个标题数据集,它们的描述和对应于描述是否有效的 0 或 1。我希望能够根据 BERT 以及描述的字符/字数来分类它们是否有效。我该怎么做?
问问题
96 次
1 回答
1
这个问题有点宽泛,但你可以从以下开始:
您可能可以使用Cola
bert 处理器,它是二进制分类问题的合适处理器。
您可以将 Titles 视为 ID,因为它不应该影响训练,并且可以唯一标识描述。
根据需要的问题创建 TSV 文件,您可以使用 Cola 任务的 Glue 数据来查看如何为 bert 格式化数据。
一般训练集和开发集有 4 列,即 、id
、class
、segment ID
,text data
而测试集只有 2 列id
和text data
。
一旦获得所需格式的数据,您就可以执行微调。您可以使用run_classifier.py
脚本进行微调。作者在此处记录了使用上述脚本进行微调的方法
于 2019-07-09T12:43:54.520 回答