问题标签 [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 仅 Scrapy 正文文本
我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有任何运气。
希望一些学者可以在这里帮助我从<body>
标签中抓取所有文本。
php - 如何从 PHP 中的字符串中找到单词的其余部分?
假设我有一个页面我想抓取其中带有“ice”的单词,我怎样才能轻松做到这一点?我看到很多爬虫把东西分解成源代码,但我不需要这个。我只需要通过网页上的纯文本搜索的东西。
编辑:我基本上需要一些东西来搜索 .jpeg 并找到整个文件名。(它是网站上的纯文本,而不是隐藏在标签中)
perl - CPAN 模块出现问题
我尝试安装 WWW::Mechanize 模块
我在“使用 WWW::Mechanize”行上没有收到任何错误,这意味着它正在查找文件,但是在尝试使用以下命令实例化它时:
我遇到以下问题:
无法在 @INC 中找到 HTTP/Config.pm(@INC 包含:/Library/Perl/Updates/5.10.0/darwin-thread-multi-2level /Library/Perl/Updates/5.10.0 /System/Library/ Perl/5.10.0/darwin-thread-multi-2level /System/Library/Perl/5.10.0 /Library/Perl/5.10.0/darwin-thread-multi-2level /Library/Perl/5.10.0 /Network/ Library/Perl/5.10.0/darwin-thread-multi-2level /Network/Library/Perl/5.10.0 /Network/Library/Perl /System/Library/Perl/Extras/5.10.0/darwin-thread-multi- 2level /System/Library/Perl/Extras/5.10.0 .) 在 /Library/Perl/5.10.0/LWP/UserAgent.pm 第 746 行。
我不确定发生了什么。我觉得我拥有所有必要的依赖项,但我似乎无法找到这个特定错误的含义。
除了前面提到的行之外,我的脚本是空的
有没有人遇到过这个?
php - 使用 PHP 收集指定 URL 处的图像并将其存储到数据库中
通常,我希望输入一个 URL,然后将该 URL 处的图像导入数据库。
这是一些让我很接近的代码,但欢迎使用替代方案。
如果我尝试将 $image 作为 BLOB 存储到数据库中,则会出现错误。
python - 如何从 XPath 查询中的先前属性值中提取嵌入的属性值?
我正在尝试从 html 的以下部分的 onclick 属性中“选择”链接
但不能比以下 XPath 更进一步
只返回
关于如何在quickFindForm.action
XPath 中挑选出该链接的任何想法?
python - 机械化提交表单字符编码问题
我正在尝试抓取http://www.nscb.gov.ph/ggi/database.asp,特别是您从选择市/省获得的所有表格。我正在使用带有 lxml.html 和机械化的 python。到目前为止,我的刮板工作正常,但是HTTP Error 500: Internal Server Error
在提交市政当局[19]“Peñarrubia,Abra”时我得到了。我怀疑这是由于字符编码。我的猜测是 ene 字符(上面带有波浪号的 n)会导致这个问题。我怎样才能解决这个问题?
我的脚本这部分的一个工作示例如下所示。由于我刚刚开始使用 python(并且经常使用我在 SO 上找到的片段),因此非常感谢任何进一步的评论。
非常感谢你!
编辑:具体来说,错误发生在这一行
ruby - Ruby Mechanize 网络爬虫库返回文件而不是页面
我最近一直在使用 ruby 中的 Mechanize gem 来编写刮板。不幸的是,我试图抓取的 URL 在请求时返回一个Mechanize::File
对象而不是一个Mechanize::Page
对象GET
。
我不知道为什么。我尝试过的每个其他 URL 都返回了一个Mechanize::Page
对象。
有什么方法可以强制 Mechanize 返回一个Page
对象吗?
robots.txt - robots.txt 不允许:蜘蛛
我正在查看一个网站的 robots.txt 文件,我想做一个一次性的抓取,并且有这一行:
这是否意味着他们不想要任何蜘蛛?我的印象是 * 用于所有蜘蛛。如果属实,这当然会阻止诸如谷歌之类的蜘蛛。
html - 使用蜜罐 img 标签检测爬虫/恶意机器人的建议
我们想在我们的 html 主体中设置一个小蜜罐图像来检测爬虫/恶意机器人。
以前有没有人设置过这样的东西?
我们认为最好的方法是:
a) 通过以下方式将 html 注释掉:
b) 将 css 样式应用于图像,使其通过以下方式隐藏在浏览器中:
使用上述内容是否有人预见到适当和真实的用户代理会拉取图像/尝试渲染它的任何情况?
honeypot.gif 将是一个 mod_rewritten 的 php 脚本,我们将在其中进行日志记录。
虽然我知道上述两个条件可能会被任何编码良好的爬虫跳过,但它至少可以对非常肮脏的情况有所了解。
关于最佳方法的任何其他指示?
php - 从页面 Php 中刮取价格 Div 类
以上只是输出:<<<<<<<<<<
有人知道为什么会这样吗?