所以有一个excel文件,我已经通过pandas读取并将其存储在数据框'df'中。现在该 excel 文件包含 24 列作为“问题”和 631 行作为“响应/答案”。
因此,我将一个这样的问题转换为一个列表,以便我可以对其进行标记并在其上应用更多与 nlp 相关的任务。
df_lst = df['Q8 Why do you say so ?'].values.tolist()
现在,这给了我一个包含 631 个句子的列表,其中一些句子是非英语的。所以我想过滤掉非英语句子,这样最后我就剩下一个只包含英语句子的列表.
我有的:
df_lst = ['The excecutive should be able to understand the customer's problem','Customers should get correct responses to their queries', 'This text is in a random non english language'...]
输出(我想要的):
english_words = ['The excecutive should be able to understand the customer's problem','Customers should get correct responses to their queries', ...]
另外,我读到了一个名为 pyenchant 的 python 库,它应该能够做到这一点,但它与 windows 64bit 和 python 3 不兼容。有没有其他方法可以做到这一点?
谢谢!