我正在努力从英文报纸上出现的各种广告中提取人名。
但是,我注意到在提取其中存在的名称之前,我需要识别广告的边界,因为我只需要提取第一个出现的名称。我从斯坦福 NLP 开始。我成功提取了名字。但我陷入了识别段落边界的困境。
有什么方法可以识别段落边界。?
我正在努力从英文报纸上出现的各种广告中提取人名。
但是,我注意到在提取其中存在的名称之前,我需要识别广告的边界,因为我只需要提取第一个出现的名称。我从斯坦福 NLP 开始。我成功提取了名字。但我陷入了识别段落边界的困境。
有什么方法可以识别段落边界。?
这是一个难题,我们在一个项目中面临同样的问题。有一些理论论文有助于详细定义问题的范围和潜在的解决方案。我将它们包括在下面。
我们仍处于研发过程中,所以我们还没有很多答案,但随着时间的推移,我们愿意分享我们所拥有的和发现的东西。
这是一篇这样的论文:
这是他们使用的 ISCIBoost 代码的 github 链接:
令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我发现了以下内容(除了 profversaggi 提供的论文),所有这些都相当古老:
Sporleder 和 Lapata (2005):跨语言和领域的广泛覆盖段落分割
Filippova 和 Strube (2006):使用语言动机特征进行段落边界识别
Genzel (2005)段落边界检测系统