我尝试使用colab 中的torchtext中的.build_vocab()来构建词汇表。它返回错误消息:AttributeError: 'Example' object has no attribute 'Insult'

我的问题类似于@szymix12 的问题。他的回答是确保传递的字段顺序与 csv 标头相同。我确认我分配的订单是正确的。csv 数据有两列:“侮辱”(标签)和“评论”(文本)。“侮辱”是二进制标签指示符(0 或 1)。

代码如下,我也做了一个colab notebook。随意奔跑。

import os
import torch
from torchtext import data, datasets
from torchtext.utils import download_from_url

CSV_FILENAME = 'data.csv'
CSV_GDRIVE_URL = 'https://drive.google.com/open?id=1ctPKO-_sJbmc8RodpBZ5-3EyYBWlUy5Pbtjio5pyq00'
download_from_url(CSV_GDRIVE_URL, CSV_FILENAME)

TEXT = data.Field(tokenize = 'spacy', batch_first = True, lower=True)  #from torchtext import data
LABEL = data.LabelField(sequential=False, dtype = torch.float)

train = data.TabularDataset(path=os.path.join('/content', CSV_FILENAME),
                            fields = [('Insult', LABEL), ('Comment', TEXT)],




您的脚本获取的是 HTML 文件而不是实际的数据集。这是因为您使用的 URL'https://drive.google.com/open?id=1ctPKO-_sJbmc8RodpBZ5-3EyYBWlUy5Pbtjio5pyq00'不是 csv 文件的直接 URL。它是 HTML 格式,因为提供的 URL 是 Google 表格的。要解决此问题,您可以将数据集下载到您的计算机并将其上传到 Colab。

这是您获取的 data.csv 的内容。

您不需要按照@knoop 的建议手动下载和上传文件。正如我在之前对您问题的回答中提供的那样,您不应使用带有open. 你应该改为uc?export=download改为。这样,正确的CSV_GDRIVE_URL应该是:

CSV_GDRIVE_URL = 'https://drive.google.com/uc?export=download&id=1eWMjusU3H34m0uml5SdJvYX6gQuB8zta'


