google-cloud-nl - Google AutoML 自然语言多标签文本分类的输入数据集格式

Question

Google AutoML 自然语言多标签文本分类的输入数据集格式应该是什么？我知道对于多类分类，我需要一列文本和另一列用于标签。标签列每行包含一个标签。

每个文本都有多个标签，我想做多标签分类。我尝试为每个标签设置一列并使用 one-hot 编码，但收到此错误消息：支持最多 1000 个标签。找到 9823 个标签。

score 3 · Accepted Answer

一开始很混乱，但后来我设法在文档中找到了格式，这是一个 CSV 文件，例如：

text1, label1, label2 text2, label2 text3, label3, label2, label1

解析器不理解将 NULL 单元格保存为标准 CSV 文件的表，如下所示：

text1, label1, label2, text2, label2,, text3, label3, label2, label1

我不得不从 Pandas 生成的 CSV 文件中手动删除多余的逗号。

score 1 · Accepted Answer

Google AutoML 更新了他们的解析器。以下格式很好：

text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,

至少在 2019 年 1 月 27 日对我有用

score 0 · Accepted Answer

每个标签一列是要走的路。如果您的标签少于 1000 个，则您的 CSV 文件中可能存在错误，解析器会感到困惑，并认为示例文本中的某些标记是标签。请确保您的文本用引号正确转义。

3 回答 3