我正在尝试从 HTML 文档中获取文本的简单任务。所以我为此使用 HTMLdoc.DocumentNode.InnerText。问题在于,在某些网站上,当它们位于不同的标签中时,它们不会在单词之间放置空格。在这些情况下, DocumentNode.InnerText 将这些单词连接成一个,它变得无用了。
例如,我正在尝试阅读包含该行的站点
<span>İstanbul</span><ul><li><a href="i1.htm">Adana</a></li>
我得到了毫无意义的“İstanbulAdana”。
我在 HTMLAgilityPack 文档和 Google 中找不到任何解决方案
我错过了什么吗?
谢谢,