3

Google AutoML 自然语言多标签文本分类的输入数据集格式应该是什么?我知道对于多类分类,我需要一列文本和另一列用于标签。标签列每行包含一个标签。

每个文本都有多个标签,我想做多标签分类。我尝试为每个标签设置一列并使用 one-hot 编码,但收到此错误消息:支持最多 1000 个标签。找到 9823 个标签。

4

3 回答 3

3

一开始很混乱,但后来我设法在文档中找到了格式,这是一个 CSV 文件,例如:

text1, label1, label2 text2, label2 text3, label3, label2, label1

解析器不理解将 NULL 单元格保存为标准 CSV 文件的表,如下所示:

text1, label1, label2, text2, label2,, text3, label3, label2, label1

我不得不从 Pandas 生成的 CSV 文件中手动删除多余的逗号。

于 2018-10-25T21:12:02.277 回答
1

Google AutoML 更新了他们的解析器。以下格式很好:

text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,

至少在 2019 年 1 月 27 日对我有用

于 2019-01-28T22:25:41.413 回答
0

每个标签一列是要走的路。如果您的标签少于 1000 个,则您的 CSV 文件中可能存在错误,解析器会感到困惑,并认为示例文本中的某些标记是标签。请确保您的文本用引号正确转义。

于 2018-10-24T22:59:39.317 回答