c# - 确定html页面中的内容是什么

Question

我正在构建一个新闻阅读器，我可以选择让用户通过输入页面链接来分享来自博客、网站等的文章。我现在使用两种方法来确定页面的内容：

我正在尝试从用户输入的页面中提取 rss 提要链接，然后在提要中匹配该 url 以获得正确的项目。
如果网站不包含提要，或者它的格式错误或输入的地址与 rss 中的项目链接不同（如果不是更多的话，这在大约 50% 的情况下）我会尝试找到 og 元标记，这很好用，但只有更大的网站才有，较小的网站和博客通常对整个网站都有相同的元描述。

我想知道例如谷歌是如何做到的？当网站不包含元描述时，Google 会以某种方式自行确定其搜索结果页面上的内容。

我正在使用HtmlAgilityPack从页面中提取内容以及我自己的方法将 html 清理为文本。

有人可以向我解释一下逻辑或最佳方法吗？如果我尝试直接从顶部抓取它，我通常会得到来自侧边栏、导航等的内容？

score 0 · Accepted Answer

我最终使用了用JAVA 编写的Boilerpipe，使用 IKVM 导入它，它适用于区域格式正确的页面，但对于某些内容分散的页面仍然存在问题。

1 回答 1