问题标签 [scraper]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

357 问题

0 投票

2 回答

8775 浏览

python - 仅 Scrapy 正文文本

我正在尝试使用 python Scrapy 仅从正文中抓取文本，但还没有任何运气。

希望一些学者可以在这里帮助我从<body>标签中抓取所有文本。

2011-03-22T10:59:56.923

0 投票

4 回答

118 浏览

php - 如何从 PHP 中的字符串中找到单词的其余部分？

假设我有一个页面我想抓取其中带有“ice”的单词，我怎样才能轻松做到这一点？我看到很多爬虫把东西分解成源代码，但我不需要这个。我只需要通过网页上的纯文本搜索的东西。

编辑：我基本上需要一些东西来搜索 .jpeg 并找到整个文件名。（它是网站上的纯文本，而不是隐藏在标签中）

php parsing scraper

2011-04-14T09:30:37.967

0 投票

1 回答

5354 浏览

perl - CPAN 模块出现问题

我尝试安装 WWW::Mechanize 模块

我在“使用 WWW::Mechanize”行上没有收到任何错误，这意味着它正在查找文件，但是在尝试使用以下命令实例化它时：

我遇到以下问题：

无法在 @INC 中找到 HTTP/Config.pm（@INC 包含：/Library/Perl/Updates/5.10.0/darwin-thread-multi-2level /Library/Perl/Updates/5.10.0 /System/Library/ Perl/5.10.0/darwin-thread-multi-2level /System/Library/Perl/5.10.0 /Library/Perl/5.10.0/darwin-thread-multi-2level /Library/Perl/5.10.0 /Network/ Library/Perl/5.10.0/darwin-thread-multi-2level /Network/Library/Perl/5.10.0 /Network/Library/Perl /System/Library/Perl/Extras/5.10.0/darwin-thread-multi- 2level /System/Library/Perl/Extras/5.10.0 .) 在 /Library/Perl/5.10.0/LWP/UserAgent.pm 第 746 行。

我不确定发生了什么。我觉得我拥有所有必要的依赖项，但我似乎无法找到这个特定错误的含义。

除了前面提到的行之外，我的脚本是空的

有没有人遇到过这个？

perl www-mechanize scraper

2011-04-17T00:20:26.603

0 投票

1 回答

382 浏览

php - 使用 PHP 收集指定 URL 处的图像并将其存储到数据库中

通常，我希望输入一个 URL，然后将该 URL 处的图像导入数据库。

这是一些让我很接近的代码，但欢迎使用替代方案。

如果我尝试将 $image 作为 BLOB 存储到数据库中，则会出现错误。

php image curl screen-scraping scraper

2011-06-08T17:05:54.350

0 投票

3 回答

2267 浏览

python - 如何从 XPath 查询中的先前属性值中提取嵌入的属性值？

我正在尝试从 html 的以下部分的 onclick 属性中“选择”链接

但不能比以下 XPath 更进一步

只返回

关于如何在quickFindForm.actionXPath 中挑选出该链接的任何想法？

python html xpath scrapy scraper

2011-07-02T01:14:32.650

0 投票

2 回答

3084 浏览

python - 机械化提交表单字符编码问题

我正在尝试抓取http://www.nscb.gov.ph/ggi/database.asp，特别是您从选择市/省获得的所有表格。我正在使用带有 lxml.html 和机械化的 python。到目前为止，我的刮板工作正常，但是HTTP Error 500: Internal Server Error在提交市政当局[19]“Peñarrubia，Abra”时我得到了。我怀疑这是由于字符编码。我的猜测是 ene 字符（上面带有波浪号的 n）会导致这个问题。我怎样才能解决这个问题？

我的脚本这部分的一个工作示例如下所示。由于我刚刚开始使用 python（并且经常使用我在 SO 上找到的片段），因此非常感谢任何进一步的评论。

非常感谢你！

编辑：具体来说，错误发生在这一行

python encoding mechanize scraper

2011-07-07T11:57:34.433

0 投票

3 回答

2089 浏览

ruby - Ruby Mechanize 网络爬虫库返回文件而不是页面

我最近一直在使用 ruby 中的 Mechanize gem 来编写刮板。不幸的是，我试图抓取的 URL 在请求时返回一个Mechanize::File对象而不是一个Mechanize::Page对象GET。

我不知道为什么。我尝试过的每个其他 URL 都返回了一个Mechanize::Page对象。

有什么方法可以强制 Mechanize 返回一个Page对象吗？

ruby object mechanize scraper

2011-08-02T20:36:35.513

0 投票

1 回答

700 浏览

robots.txt - robots.txt 不允许：蜘蛛

我正在查看一个网站的 robots.txt 文件，我想做一个一次性的抓取，并且有这一行：

这是否意味着他们不想要任何蜘蛛？我的印象是 * 用于所有蜘蛛。如果属实，这当然会阻止诸如谷歌之类的蜘蛛。

robots.txt scraper

2011-08-28T09:38:07.900

0 投票

2 回答

963 浏览

html - 使用蜜罐 img 标签检测爬虫/恶意机器人的建议

我们想在我们的 html 主体中设置一个小蜜罐图像来检测爬虫/恶意机器人。

以前有没有人设置过这样的东西？

我们认为最好的方法是：

a) 通过以下方式将 html 注释掉：

b) 将 css 样式应用于图像，使其通过以下方式隐藏在浏览器中：

使用上述内容是否有人预见到适当和真实的用户代理会拉取图像/尝试渲染它的任何情况？

honeypot.gif 将是一个 mod_rewritten 的 php 脚本，我们将在其中进行日志记录。

虽然我知道上述两个条件可能会被任何编码良好的爬虫跳过，但它至少可以对非常肮脏的情况有所了解。

关于最佳方法的任何其他指示？

html image detect scraper honeypot

2011-09-07T20:24:48.067

0 投票

1 回答

1704 浏览

php - 从页面 Php 中刮取价格 Div 类

以上只是输出：<<<<<<<<<<有人知道为什么会这样吗？

php jquery screen-scraping web-scraping scraper

2011-09-18T22:59:33.340

1 2 3 4 5 6 7 8 9 10

问题标签 [scraper]

Reference