我需要检测 HTML 中的句子边界。那里有很多句子边界检测软件(java.text.BreakIterator 是我正在使用的软件),但所有这些软件都假设纯文本。HTML 比这更丰富,并且包含一些关于句子中断位置的线索。
例如,<p>, <ul>/<li>, <td>
其他标签标记句子边界,或者至少表明句子可能不会跨越它们。<b>, <i>, <em>, <span>, <a>
句子中可能会出现其他一些标签。
除了正常的 NLP 内容之外,是否有人知道任何利用 HTML 标记来确定句子边界的软件?