问题标签 [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8775 浏览

python - 仅 Scrapy 正文文本

我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有任何运气。

希望一些学者可以在这里帮助我从<body>标签中抓取所有文本。

0 投票
4 回答
118 浏览

php - 如何从 PHP 中的字符串中找到单词的其余部分?

假设我有一个页面我想抓取其中带有“ice”的单词,我怎样才能轻松做到这一点?我看到很多爬虫把东西分解成源代码,但我不需要这个。我只需要通过网页上的纯文本搜索的东西。

编辑:我基本上需要一些东西来搜索 .jpeg 并找到整个文件名。(它是网站上的纯文本,而不是隐藏在标签中)

0 投票
1 回答
5354 浏览

perl - CPAN 模块出现问题

我尝试安装 WWW::Mechanize 模块

我在“使用 WWW::Mechanize”行上没有收到任何错误,这意味着它正在查找文件,但是在尝试使用以下命令实例化它时:

我遇到以下问题:

无法在 @INC 中找到 HTTP/Config.pm(@INC 包含:/Library/Perl/Updates/5.10.0/darwin-thread-multi-2level /Library/Perl/Updates/5.10.0 /System/Library/ Perl/5.10.0/darwin-thread-multi-2level /System/Library/Perl/5.10.0 /Library/Perl/5.10.0/darwin-thread-multi-2level /Library/Perl/5.10.0 /Network/ Library/Perl/5.10.0/darwin-thread-multi-2level /Network/Library/Perl/5.10.0 /Network/Library/Perl /System/Library/Perl/Extras/5.10.0/darwin-thread-multi- 2level /System/Library/Perl/Extras/5.10.0 .) 在 /Library/Perl/5.10.0/LWP/UserAgent.pm 第 746 行。

我不确定发生了什么。我觉得我拥有所有必要的依赖项,但我似乎无法找到这个特定错误的含义。

除了前面提到的行之外,我的脚本是空的

有没有人遇到过这个?

0 投票
1 回答
382 浏览

php - 使用 PHP 收集指定 URL 处的图像并将其存储到数据库中

通常,我希望输入一个 URL,然后将该 URL 处的图像导入数据库。

这是一些让我很接近的代码,但欢迎使用替代方案。

如果我尝试将 $image 作为 BLOB 存储到数据库中,则会出现错误。

0 投票
3 回答
2267 浏览

python - 如何从 XPath 查询中的先前属性值中提取嵌入的属性值?

我正在尝试从 html 的以下部分的 onclick 属性中“选择”链接

但不能比以下 XPath 更进一步

只返回

关于如何在quickFindForm.actionXPath 中挑选出该链接的任何想法?

0 投票
2 回答
3084 浏览

python - 机械化提交表单字符编码问题

我正在尝试抓取http://www.nscb.gov.ph/ggi/database.asp,特别是您从选择市/省获得的所有表格。我正在使用带有 lxml.html 和机械化的 python。到目前为止,我的刮板工作正常,但是HTTP Error 500: Internal Server Error在提交市政当局[19]“Peñarrubia,Abra”时我得到了。我怀疑这是由于字符编码。我的猜测是 ene 字符(上面带有波浪号的 n)会导致这个问题。我怎样才能解决这个问题?

我的脚本这部分的一个工作示例如下所示。由于我刚刚开始使用 python(并且经常使用我在 SO 上找到的片段),因此非常感谢任何进一步的评论。

非常感谢你!

编辑:具体来说,错误发生在这一行

0 投票
3 回答
2089 浏览

ruby - Ruby Mechanize 网络爬虫库返回文件而不是页面

我最近一直在使用 ruby​​ 中的 Mechanize gem 来编写刮板。不幸的是,我试图抓取的 URL 在请求时返回一个Mechanize::File对象而不是一个Mechanize::Page对象GET

我不知道为什么。我尝试过的每个其他 URL 都返回了一个Mechanize::Page对象。

有什么方法可以强制 Mechanize 返回一个Page对象吗?

0 投票
1 回答
700 浏览

robots.txt - robots.txt 不允许:蜘蛛

我正在查看一个网站的 robots.txt 文件,我想做一个一次性的抓取,并且有这一行:

这是否意味着他们不想要任何蜘蛛?我的印象是 * 用于所有蜘蛛。如果属实,这当然会阻止诸如谷歌之类的蜘蛛。

0 投票
2 回答
963 浏览

html - 使用蜜罐 img 标签检测爬虫/恶意机器人的建议

我们想在我们的 html 主体中设置一个小蜜罐图像来检测爬虫/恶意机器人。

以前有没有人设置过这样的东西?

我们认为最好的方法是:

a) 通过以下方式将 html 注释掉:

b) 将 css 样式应用于图像,使其通过以下方式隐藏在浏览器中:

使用上述内容是否有人预见到适当和真实的用户代理会拉取图像/尝试渲染它的任何情况?

honeypot.gif 将是一个 mod_rewritten 的 php 脚本,我们将在其中进行日志记录。

虽然我知道上述两个条件可能会被任何编码良好的爬虫跳过,但它至少可以对非常肮脏的情况有所了解。

关于最佳方法的任何其他指示?

0 投票
1 回答
1704 浏览

php - 从页面 Php 中刮取价格 Div 类

以上只是输出:<<<<<<<<<<有人知道为什么会这样吗?