我想删除数据框中的空标记。这是一个例子:
import pandas as pd
import spacy_transformers
text = "hello world"
df = pd.DataFrame([x.split(';') for x in text.split('\n')])
sp = spacy.load('en_core_web_sm')
df['token'] = df[0].apply(sp)
0 | 令牌 | 输出期望 |
---|---|---|
你好世界 | (你好世界) | (你好世界) |
有了这个代码我得到df['token']=(hello,, world)
,而我想得到df['token']=(hello,world)
。我知道我可以这样做:
df[0] = df[0].str.replace('\s+', ' ', regex=True)
在标记化之前,但在我的原始数据集中我只有标记。谁能建议我如何删除空令牌?