问题标签 [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1161 浏览

php - 抓取非 RSS 页面以生成提要

我想抓取一个定期更新的页面(添加与以前的结构完全相同的新文章)以生成 RSS 提要。

我可以编写代码来轻松分析页面,但是当页面更新时如何模拟 ping 即我的 php 脚本如何知道?它必须是一个cron工作吗?

(我知道可能是一个重复的问题,但是没有运气就搜索了直接答案。我得到的最接近的是Scrape and generate RSS feed,它有一个抓取脚本,但没有关于如何让它自动响应页面上的更改的信息)

0 投票
1 回答
3971 浏览

php - 使用 PHP Simple HTML DOM Parser 卡住选择类或 id

我正在尝试使用 PHP Simple HTML DOM Parser 选择一个类或一个 id,但绝对没有运气。我的示例非常简单,似乎符合手册中给出的示例(http://simplehtmldom.sourceforge.net/manual.htm),但它不起作用,它让我陷入困境。使用简单 dom 给出的其他示例脚本可以正常工作。

谁能看到我哪里出错了?

0 投票
3 回答
16454 浏览

python - 如何编写 Python 脚本来搜索网站 html 中的匹配链接

我对python不太熟悉,必须编写一个脚本来执行许多功能。基本上我仍然需要的模块是如何检查网站代码以查找预先提供的匹配链接。

0 投票
4 回答
165 浏览

python - 如何使这个结果成为一个变量?

现在它设置为写入文件,但我希望它将值输出到变量。不知道怎么做。

0 投票
2 回答
4785 浏览

c# - 使用分页和 JavaScript 链接时,如何从 ASP.NET 网站上抓取信息?

我得到了一份应该是最新的员工名单,但它与用 ASP.NET 编写的 Intranet People Finder 不匹配。

由于信息很敏感,我无法访问 People Finder 正在使用的数据库,因此我获取信息的唯一方法是从顶部的顶层黄铜开始刮取结构,然后依次遍历每一层。

每个人都有一个员工编号,然后形成 URL http://intranet/peoplefinder/index.aspx?srn=ABC1234,然后所有向他们报告的人以<a id="gvEmployees_ctl03_lnkFullName" href="index.aspx?srn=ABC4321" target="_self">每个 URL 指示员工编号并提供指向其团队的链接的格式列在下方。

当团队很大时,问题就出现了,因为分页是在 GridView 中使用 URL 实现的,例如<a href="javascript:__doPostBack('gvEmployees','Page$2')">2</a>.

我将如何抓取此页面,捕获 SRN 和其他详细信息以及在 GridView 的所有页面上向该人报告的人,然后遍历每个报告人并执行相同的过程,直到整个列表完成?

结果的示例 HTML

0 投票
1 回答
574 浏览

php - PHP simplehtmldom 帮助 - 修改表单

我在这里得到了一些很大的帮助,我非常接近解决我的问题,我可以品尝到它。但我似乎被困住了。

我需要从本地网络服务器抓取一个简单的表单,并且只返回与用户本地电子邮件匹配的行(即 onemyndseye@localhost)。simplehtmldom 可以轻松提取正确的表单元素:

回报:

但是,我无法进行下一步。返回包含“onemyndseye@localhost”的行并将其删除,以便仅返回以下内容:

感谢这个网站的优秀用户,我已经走到了这一步,甚至可以只返回链接,但我无法获得其余的......重要的是,完整的<input>标签完全如上所示返回,因为 id 和 name 值将需要稍后在发布数据中传递回原始表单。

提前致谢!

***** EDIT ******

多亏了 Yacoby,问题已接近解决。最后一个小障碍是 str_ireplace 留下了一些垃圾。也许删除</a><br />...之间的所有文本会更容易?

在 Yacoby 的添加之后,输出如下:

注意 [email: (Default)] 和 [email: ] 已被留下。最后还需要删除表单操作并提交行,但我认为我可以从之前的建议中收集到那部分。

***** SOLVED ****

问题解决了:

谢谢您的帮助!

0 投票
2 回答
603 浏览

php - 如何使用 php/javascript 抓取当前网页?

我制作了以下网页来生成交互式待办事项列表:http ://robert-kent.com/todo/todo.php

基本上,用户粘贴一个编号的待办事项列表,每个任务都放置到它自己的具有唯一 ID 的 div 中。用户可以为任务添加注释(使用 javascript 完成),并且可以在任务完成后单击绿色复选标记以隐藏它。

我想添加一个导出按钮,该按钮将生成一个报告,说明哪些任务已完成,哪些未完成,以及用户输入的注释。经过一番搜索,我明白我想要做的是刮页面,但我对最好的方法一无所知。我在 Google 上找到的许多文章和教程都涉及抓取其他网站,并没有真正解释我如何遍历页面上的每个 div。

完整来源:http://pastebin.com/r7V3P5jK

有什么建议么?

0 投票
2 回答
745 浏览

iphone - appcomments.com 或 androlib.com 等网站如何获取数据,尤其是评论?

他们只是抓取还是有 API?

0 投票
3 回答
2201 浏览

php - 抓取网站 URL 以获取图像的路径

我正在编写一个简单的 php 脚本,该脚本将构建我在 Facebook 粉丝页面上拥有的相册列表。

Facebook 友好地提供了 Graph API,它给了我一个很好的专辑列表,但是它们不再提供默认专辑图像的路径。

我想编写一个 PHP 脚本,通过 curl 加载专辑 url,并以某种方式获取包含缩略图的表中第一个图像的路径。这将是第一个具有“UIPhotoGrid_Image”类的 img 标记的“src”值。

包含好东西的布局代码块如下所示:

可悲的是,这超出了我目前的编码能力......有什么想法吗?

0 投票
4 回答
3771 浏览

php - 试图抓取 div 的全部内容

我有一个我正在处理的项目,我想在 touch.facebook.com 的 iframe 中使用 facebooks 地点添加一个非常小的附近地点列表,我可以轻松地使用 touch.facebook.com/#/places_friends.php但随后会加载标题和其他导航栏,例如消息、事件等栏,我只想要内容。

通过查看 touch.facebook.com/#/places_friends.php 源,我很确定,我需要加载的只是 div“内容”无论如何,我对 php 非常陌生,我很确定我的想法正在尝试做的就是所谓的网页抓取。

为了在stackoverflow上弄清楚事情并且不需要担心身份验证或任何事情,我想加载登录页面,看看我是否至少可以让刮板工作。一旦我有一个有效的抓取代码,我很确定我可以处理剩下的。它已经加载了 div 中的所有内容。我以前见过这样做,所以我知道这是可能的。它看起来与您尝试登录 touch.facebook.com 时看到的完全一样,但顶部没有蓝色 facebook 徽标,这就是我试图在这里完成的。

所以这是登录页面,我试图加载包含文本框的 div 以登录实际的登录按钮。如果正确完成,我们应该只看到上面没有模糊 Facebook 标题栏的那些。

我试过了

所做的只是加载一个空白页。

我也尝试过使用http://simplehtmldom.sourceforge.net/

我将示例基本选择器修改为

我也试过

那也不起作用