问题标签 [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
682 浏览

php - 如何停止从我的 php 页面中抓取链接

我有一个带有一些链接和邮件 ID 的主页,我需要停止从该网页抓取我的网址和邮件 ID……我使用了 robots.txt,但大多数不良爬虫不会尊重这一点……

0 投票
1 回答
278 浏览

php - 是否可以从会员网站抓取内容并生成 rss 提要?

是否可以从会员网站上抓取内容,以便我可以创建一个 Rss 提要以导入我的收件箱?

你看,我是几个为表演艺术行业提供选角电话的网站的成员(有些是付费的,有些是免费的),但他们中的大多数不提供最新选角电话更新的 Rss 提要,而我必须这样做每天烦躁地登录 7 个不同的网站,看看最新的选角电话是什么。有没有办法使用脚本/程序从这些页面内容创建 Rss 提要,以便我可以将其导入我的 gmail 收件箱?

我确信它可以使用 php 实现,但我不知道如何自动登录。

我已经联系了网站所有者以设置 RSS 提要,但已经发送了几个月的电子邮件,但我还没有收到回复。

0 投票
3 回答
441 浏览

php - 通过 https 导入 XML 数据

是否可以使用 php 从 https 链接获取/报废数据,

https 页面要求输入用户名和密码,并具有 XML 格式的数据。那么是否可以使用 PHP 获取这些数据?

0 投票
2 回答
7517 浏览

python - 无法让 Scrapy 管道工作

我有使用 Scrapy 框架编写的蜘蛛。我在让任何管道正常工作时遇到了一些麻烦。我的 pipelines.py 中有以下代码:

我的 CrawlSpider 子类有这条线来激活这个类的管道。

但是,当我使用它运行它时

我得到一条线,上面写着

没有管道(我认为这是日志记录应该输出它们的地方)。

我尝试过查看文档,但似乎没有任何完整项目的完整示例来查看我是否遗漏了任何内容。

关于下一步尝试什么的任何建议?或在哪里寻找进一步的文件?

0 投票
1 回答
4144 浏览

python - Python + Mechanize 不能与 Delicious 一起使用

我正在使用 Mechanize 和 Beautiful soup 从 Delicious 中刮取一些数据

这适用于我扔它的大多数网站,但在 Delicious 上失败,输出如下

0 投票
3 回答
672 浏览

php - 执行数据库检查时“试图获取非对象的属性”——PHP

问候。我有一个 php 脚本,它应该从批发商的网站上抓取产品信息并将该信息输入数据库。

我已经成功收集了示例产品的所有信息,并且在对所有 $v 变量进行简单回显时,所有内容都正确输出到屏幕。

现在,在我添加检查以查看产品的类别是否存在于数据库中并实际插入信息之后,我得到

[phpBB 调试] PHP 注意:在文件 /rip.php 第 35 行:尝试获取非对象的属性 [phpBB 调试] PHP 注意:在文件 /rip.php 的第 36 行:尝试获取非对象的属性[phpBB 调试] PHP 注意:在文件 /rip.php 第 38 行:未定义偏移量:3 [phpBB 调试] PHP 注意:在文件 /rip.php 第 38 行:未定义偏移量:2 [phpBB 调试] PHP 注意:在第 41 行的文件 /rip.php:尝试获取非对象的属性 致命错误:在第 42 行的 /XXXXX/public_html/XXXXX/rip.php 中的非对象上调用成员函数 find()

但是,所有产品的信息仍然输入到数据库中。

该脚本应该逐页进行,收集信息,但在第一个产品之后停止。

我正在使用 SC Chen 的 Simple HTML DOM scraper script (http://sourceforge.net/projects/simplehtmldom/) 和 phpBB 的数据库调用核心系统,这是我的 PHP 源代码:

关于如何清除这些通知/错误并让脚本正确地遍历页面的任何建议?我几乎可以肯定这是我忽略的非常简单的事情......

0 投票
2 回答
165 浏览

php - PHP application design

I have to do a Scraper that will scrap about 100 URL's, the Scraper must to run in a PHP CLI called by a CronJob. I'm totally lost on how to manage this... for each URL I'm thinking to create a new file just to get things clear when I must to update code for a specific URL.

This could be a good option? Then, it is possible to call all this files from a single CronJob?

0 投票
2 回答
730 浏览

javascript - 从 JavaScript 中提取数据(Python Scraper)

我目前正在使用 urllib2、pyquery 和 json 的融合来抓取网站,现在我发现我需要从 JavaScript 中提取一些数据。一种想法是使用 JavaScript 引擎(如 V8),但这对于我需要的东西来说似乎有点矫枉过正。我会使用正则表达式,但这个表达式似乎很复杂。

JavaScript:

我需要提取<html>,但我不完全确定该怎么做。<html>本身基本上可以包含太阳下的所有字符,因此行不通[^"]

有什么想法吗?

0 投票
1 回答
512 浏览

java - 最简单的工具(Windows 平台)爬网和保存单词?

我想抓取网页并保存关键字及其频率。例如,我想从 URL:http ://www.dmoz.org/Arts/ 抓取艺术类别,并保存一个单词列表及其频率。所以我想要以下输出

词频
电影 400
歌曲 100
杂志 120

实现这一目标的最简单方法是什么?任何语言的任何工具或库都会非常有帮助。

0 投票
1 回答
1264 浏览

javascript - 使用 javascript 屏幕延迟抓取网站

我正在尝试抓取一个具有瞬间 javascript 延迟的网站。

我目前正在使用 python 进行抓取。每当我“获取”页面时,javascript 延迟还没有完成,并且还没有完全加载新的 dom。

我将如何刮掉这样的页面?