我有数千封以纯文本或 HTML 格式存储的电子邮件。所有纯文本电子邮件的格式都几乎相同,因此仅提取实际电子邮件非常简单。
但是 HTML 电子邮件到处都是,我发现很难想出一个只提取正文消息的方法。电子邮件中还有很多我不想要的其他垃圾内容,例如“这封电子邮件是由...生成的”以及一堆其他非用户生成的文本,这些文本会随着电子邮件的变化而变化。
Python 有什么方法可以识别类似于正文或完整句子的内容吗?
我已经尝试过使用此处找到的正则表达式: a Regex for extracting sentence from a paragraph in python
但问题是我有很多这样的行:
头衔*:先生
正则表达式认为是一个句子,我不想提取。
我还尝试将该正则表达式与 NLTK 的 POS 标记器结合起来,仅打印出同时具有名词和动词的句子,但我似乎效果不佳,因为它只是内置的 POS 标记器,没有经过培训任何数据集。
所以我想我的问题是:我该如何解决我的问题?我错过了什么吗?