1

我正在构建一个新闻阅读器,我可以选择让用户通过输入页面链接来分享来自博客、网站等的文章。我现在使用两种方法来确定页面的内容:

  1. 我正在尝试从用户输入的页面中提取 rss 提要链接,然后在提要中匹配该 url 以获得正确的项目。

  2. 如果网站不包含提要,或者它的格式错误或输入的地址与 rss 中的项目链接不同(如果不是更多的话,这在大约 50% 的情况下)我会尝试找到 og 元标记,这很好用,但只有更大的网站才有,较小的网站和博客通常对整个网站都有相同的元描述。

我想知道例如谷歌是如何做到的?当网站不包含元描述时,Google 会以某种方式自行确定其搜索结果页面上的内容。

我正在使用HtmlAgilityPack从页面中提取内容以及我自己的方法将 html 清理为文本。

有人可以向我解释一下逻辑或最佳方法吗?如果我尝试直接从顶部抓取它,我通常会得到来自侧边栏、导航等的内容?

4

1 回答 1

0

我最终使用了用JAVA 编写的Boilerpipe,使用 IKVM 导入它,它适用于区域格式正确的页面,但对于某些内容分散的页面仍然存在问题。

于 2012-05-30T14:58:46.923 回答