0

我正在对数据集执行 EDA,并希望在删除重复项之前和之后计算一列中的单词总数。

这是我的代码:

print(train_dataset['text'].apply(lambda x: len(x.split(' '))).sum())

它抛出这个错误:

AttributeError: 'float' object has no attribute 'split'
4

1 回答 1

0

您可以尝试在拆分之前将列值转换为字符串类型:

train_dataset['text'] = train_dataset['text'].astype(str)
train_dataset['text'].apply(lambda x: len(x.split(' '))).sum()
# or
train_dataset['text'].apply(lambda x: len(str(x).split(' '))).sum()
于 2022-03-05T19:53:00.513 回答