2

我需要在CNN网站的每个新闻页面中获取用户评论,它使用评论系统。我使用进行 html 解析。有没有我可以使用的特定代码来提取评论的作者和使用的评论。

提前致谢, 迪努沙

4

1 回答 1

3

由于 Disqus 嵌入是一个 javascript 嵌入,因此除非网站在页面源中呈现评论,否则评论将不会在页面源中可用。如果您正在抓取页面并让 javascript 呈现,那么第一页(最多 50 条评论)在“postCompatContainer”DIV 中的 Disqus iFrame 中可用。

但是,我建议使用 Disqus API 来完成此操作。这有两个主要部分:

  1. 从文章中获取线程信息

特别是在页面源中,您必须找到变量“disqus_shortname”和“disqus_identifier”或“disqus_url”。如果 'disqus_identifier' 或 'disqus_url' 不可用,那么您可以尝试使用窗口位置地址,但这不太可靠。

  1. 使用该数据进行 API 调用。

具体来说,您需要使用我们的线程/listPosts端点,将“disqus_shortname”作为“论坛”,将标识符或 url 分别作为“thread=ident:”或“thread=link:”传递。

我不会在这里详细介绍使用 API,但我们在这里有一个很好的入门教程:http: //help.disqus.com/customer/portal/articles/1131783-tutorial-get-comment-counts-with -the-api

以及更多示例:https ://github.com/disqus/DISQUS-API-Recipes

于 2013-06-11T23:59:38.267 回答