在进一步处理之前,我需要将电子邮件中自然、连贯的文本/句子与列表、签名、问候语等分开。
例子:
你好汤姆,
上周一我们做了 bla bla、lore Lorem ipsum dolor sit amet、consectetur adipisici elit、sed eiusmod tempor incidunt ut labore et dolore magna aliqua。
- 清单项目 2
- 清单项目 3
- 清单项目 3
Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquid x ea commodi consequat。Quis aute iure reprehenderit in voluptate velit
问候,K。
---一行有趣的字符-#######
示例公司
伦敦邪恶街 33 号
手机:00 234534/234345
理想情况下,该算法将仅匹配粗体部分。
是否有任何推荐的方法 - 或者是否有针对该问题的现有算法?我应该根据标点符号的数量、长度等尝试近似的正则表达式还是更多的统计数据?