我使用 html 解析器 (Neko) 来提取 html 文档的自由文本。由于我对文本的语义感兴趣,因此我必须特别注意浏览器中出现的单词之间的距离。
例如:
<H1>My
title</H1>
<P>Hello
World</P>
呈现为:
My title
Hello world
在<pre>
标签内包含段落或带有样式时:
<style>
p { white-space:pre; }
</style>
会导致:
My title
Hello
World
我想区别对待,因为“你好”在语义上与“世界”这个词没有联系。正如其他帖子中所说 - 解析和渲染之间存在差异。我对渲染后出现的单词之间的联系很感兴趣,因为显然解析不会像浏览器上显示的那样折叠空格。
有没有办法在浏览器上读取时从 html 中提取空格折叠的文本?