5

我正在努力从英文报纸上出现的各种广告中提取人名。

但是,我注意到在提取其中存在的名称之前,我需要识别广告的边界,因为我只需要提取第一个出现的名称。我从斯坦福 NLP 开始。我成功提取了名字。但我陷入了识别段落边界的困境。

有什么方法可以识别段落边界。?

4

2 回答 2

3

这是一个难题,我们在一个项目中面临同样的问题。有一些理论论文有助于详细定义问题的范围和潜在的解决方案。我将它们包括在下面。

我们仍处于研发过程中,所以我们还没有很多答案,但随着时间的推移,我们愿意分享我们所拥有的和发现的东西。

这是一篇这样的论文:

自动段落识别:跨语言和领域的研究

这是他们使用的 ISCIBoost 代码的 github 链接:

Boostexter 的开源实现(基于 Adaboost 的分类器)

于 2015-12-10T15:25:22.010 回答
1

令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我发现了以下内容(除了 profversaggi 提供的论文),所有这些都相当古老:

Sporleder 和 Lapata (2005):跨语言和领域的广泛覆盖段落分割

Filippova 和 Strube (2006):使用语言动机特征进行段落边界识别

Genzel (2005)段落边界检测系统

于 2021-07-07T07:27:21.047 回答