我正在构建一个新闻阅读器,我可以选择让用户通过输入页面链接来分享来自博客、网站等的文章。我现在使用两种方法来确定页面的内容:
我正在尝试从用户输入的页面中提取 rss 提要链接,然后在提要中匹配该 url 以获得正确的项目。
如果网站不包含提要,或者它的格式错误或输入的地址与 rss 中的项目链接不同(如果不是更多的话,这在大约 50% 的情况下)我会尝试找到 og 元标记,这很好用,但只有更大的网站才有,较小的网站和博客通常对整个网站都有相同的元描述。
我想知道例如谷歌是如何做到的?当网站不包含元描述时,Google 会以某种方式自行确定其搜索结果页面上的内容。
我正在使用HtmlAgilityPack
从页面中提取内容以及我自己的方法将 html 清理为文本。
有人可以向我解释一下逻辑或最佳方法吗?如果我尝试直接从顶部抓取它,我通常会得到来自侧边栏、导航等的内容?