python - 计算数据集 pandas 列中的所有单词

Question

我正在对数据集执行 EDA，并希望在删除重复项之前和之后计算一列中的单词总数。

这是我的代码：

print(train_dataset['text'].apply(lambda x: len(x.split(' '))).sum())

它抛出这个错误：

AttributeError: 'float' object has no attribute 'split'

score 0 · Accepted Answer

您可以尝试在拆分之前将列值转换为字符串类型：

train_dataset['text'] = train_dataset['text'].astype(str)
train_dataset['text'].apply(lambda x: len(x.split(' '))).sum()
# or
train_dataset['text'].apply(lambda x: len(str(x).split(' '))).sum()

python - 计算数据集 pandas 列中的所有单词

1 回答 1

Related

Reference