0

我有一组文本字符串 (A)。我可以将它们分解为令牌 (B)。我想删除一些标记,以便我最终只得到单词 (C)。我试过了:

from nltk.tokenize import word_tokenize

df = pd.DataFrame({'A': ["potato soup, 99", "2 tomato"]})

# Tokenise
df['B'] = df['A'] .apply(word_tokenize)

# Words only
def Words(Token):
    if Token .isalpha():
        return Token
df['C'] = df['B'] .apply(Words)

但我得到一个错误:

AttributeError:“列表”对象没有属性“isalpha”

我正在将该函数应用于列表,但我想将其应用于列表中的内容。

4

1 回答 1

1

使用列表推导:

df['C'] = df['B'].apply(lambda x: [y for y in x if y.isalpha()])
于 2019-03-11T14:00:08.867 回答