我需要获取任何随机网站并从网站中提取所有文本块。
我称之为“段落消歧”(参见维基百科中的“句子消歧”)。
我不在乎这些块本身是否包含其他 HTML,或者在我提取段落文本后我可以摆脱这些。
我还需要区分段落,这是第 1 段,这是第 2 段,依此类推。
我知道大多数段落通常包含在
标签。但情况并非总是如此。文本也可以包含在以下内容中:
<div>
<span>
<td>
<li>
是否有任何其他可能包含文本块的 HTML 元素?
是否有任何其他方法可以从随机网页中提取文本块,例如寻找“白字”然后找到它们的边界?
提前致谢
杰夫