3

我需要检测 HTML 中的句子边界。那里有很多句子边界检测软件(java.text.BreakIterator 是我正在使用的软件),但所有这些软件都假设纯文本。HTML 比这更丰富,并且包含一些关于句子中断位置的线索。

例如,<p>, <ul>/<li>, <td>其他标签标记句子边界,或者至少表明句子可能不会跨越它们。<b>, <i>, <em>, <span>, <a>句子中可能会出现其他一些标签。

除了正常的 NLP 内容之外,是否有人知道任何利用 HTML 标记来确定句子边界的软件?

4

1 回答 1

1

我实现的解决方案是 1. 将文档拆分为所有 html 标记上的单独块,除了内联标记(<i><b><span>等),2. 从每个块中去除内联标记, 3. 使用传统方法在每个块中查找句子.

于 2012-10-03T02:24:21.457 回答