我正在使用代理来抓取此 url 的数据:CNN 文章
我想获得整篇文章的文本(标题不一定)。所以我尝试了这个:
$(data).find("div:contains('Across the river from Cairo')");
这会找到这段文字,但是当我用它做我的事情时,myThing = $(this).text();
它似乎得到的不仅仅是文章。这可能与 HTML 的构造方式有关。如果我查看源代码,我会看到文章文本被限制在p
但是将div:contains
in 更改为p:contains
只会让我获得前几行(显然)
所以我的问题是,无论它是 HTML 结构,我如何获取文章文本。我正在寻找会说的东西(代码):
find.('Across the river from Cairo') and get this text and all the text underneath this text();