html - 我需要从任何网站提取所有段落

Question

我需要获取任何随机网站并从网站中提取所有文本块。

我称之为“段落消歧”（参见维基百科中的“句子消歧”）。

我不在乎这些块本身是否包含其他 HTML，或者在我提取段落文本后我可以摆脱这些。

我还需要区分段落，这是第 1 段，这是第 2 段，依此类推。

我知道大多数段落通常包含在

标签。但情况并非总是如此。文本也可以包含在以下内容中：

<div>
<span>
<td>
<li>

是否有任何其他可能包含文本块的 HTML 元素？

是否有任何其他方法可以从随机网页中提取文本块，例如寻找“白字”然后找到它们的边界？

提前致谢

杰夫

score 0 · Accepted Answer

使用 Python 的 Beautiful Soup 并在 body 元素上调用 .get_text() 。这将为您提供页面中的所有文本。

从get_text() 上的文档：

>>> markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
>>> soup = BeautifulSoup(markup)
>>> soup.get_text()
u'\nI linked to example.com\n'

score 0 · Accepted Answer

几乎所有 HTML 元素都可能包含文本：

p
dt
dd
时间
th

还有很多我现在想不起来了。查看 HTML 标记的完整列表，看看哪些适合包含文本，哪些不适合。

html - 我需要从任何网站提取所有段落

2 回答 2

Related

Reference