Google AutoML 自然语言多标签文本分类的输入数据集格式应该是什么?我知道对于多类分类,我需要一列文本和另一列用于标签。标签列每行包含一个标签。
每个文本都有多个标签,我想做多标签分类。我尝试为每个标签设置一列并使用 one-hot 编码,但收到此错误消息:支持最多 1000 个标签。找到 9823 个标签。
Google AutoML 自然语言多标签文本分类的输入数据集格式应该是什么?我知道对于多类分类,我需要一列文本和另一列用于标签。标签列每行包含一个标签。
每个文本都有多个标签,我想做多标签分类。我尝试为每个标签设置一列并使用 one-hot 编码,但收到此错误消息:支持最多 1000 个标签。找到 9823 个标签。
一开始很混乱,但后来我设法在文档中找到了格式,这是一个 CSV 文件,例如:
text1, label1, label2
text2, label2
text3, label3, label2, label1
解析器不理解将 NULL 单元格保存为标准 CSV 文件的表,如下所示:
text1, label1, label2,
text2, label2,,
text3, label3, label2, label1
我不得不从 Pandas 生成的 CSV 文件中手动删除多余的逗号。
Google AutoML 更新了他们的解析器。以下格式很好:
text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,
至少在 2019 年 1 月 27 日对我有用
每个标签一列是要走的路。如果您的标签少于 1000 个,则您的 CSV 文件中可能存在错误,解析器会感到困惑,并认为示例文本中的某些标记是标签。请确保您的文本用引号正确转义。