问题标签 [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
13795 浏览

java - 使用 Java 从 HTML 页面中抓取数据,输出到数据库

我需要知道如何创建一个刮板(在 Java 中)以从 HTML 页面收集数据并输出到数据库......不知道从哪里开始,所以你可以给我的任何信息都会很棒。另外,你在这里不能太基本或简单......谢谢:)

0 投票
2 回答
6452 浏览

python - Beautifulsoup 和 mechanize 获取 ajax 调用结果

嗨,我正在使用 python 2.5 和 beautifulsoup 构建一个刮板,但我遇到了一个问题......用户单击某个按钮后正在生成网页的一部分,通过使用适当的参数调用特定的 javacsript 函数来启动 ajax 请求

有没有办法模拟用户交互并得到这个结果?我遇到了一个机械化模块,但在我看来,这主要用于处理表单......

我将不胜感激任何链接或一些代码示例谢谢

0 投票
3 回答
3745 浏览

php - Facebook 喜欢点播元内容抓取工具

你们有没有见过,FB 会在您将其粘贴到链接字段后立即抓取您在 facebook 上发布的链接(状态、消息等),并显示各种元数据、图像的拇指、来自页面链接的各种图像或来自视频相关链接(如 youtube)的视频拇指。

任何想法如何复制此功能?我正在考虑几个齿轮工,或者甚至更好的是 javascript,它执行 xhr 请求并根据正则表达式或类似的东西解析内容......有什么想法吗?任何链接?是否有人已经尝试过这样做并将其包装在一个不错的班级中?任何事物?:)

谢谢!

0 投票
1 回答
9368 浏览

pdf - 从域中获取所有 pdf 文件(例如 *.adomain.com)

我需要从某个域下载所有 pdf 文件。该域上大约有 6000 个 pdf,其中大多数没有 html 链接(他们已经删除了链接,或者他们从未将链接放在首位)。

我知道大约有 6000 个文件,因为我正在谷歌搜索:filetype:pdf site:*.adomain.com

但是,Google 仅列出前 1000 个结果。我相信有两种方法可以实现这一目标:

a) 使用谷歌。但是,我如何才能从 Google 获得所有 6000 个结果?也许是刮刀?(试过 scroogle,没有运气) b)跳过谷歌并直接在域上搜索 pdf 文件。当大多数它们没有链接时,我该怎么做?

0 投票
6 回答
37268 浏览

web-crawler - 履带式与刮板式

有人可以根据范围和功能区分爬虫和抓取工具吗?

0 投票
6 回答
2050 浏览

screen-scraping - 阻止网络抓取工具

网站可以通过哪些方式阻止网络爬虫?您如何确定您的服务器是否正在被机器人访问?

0 投票
1 回答
4240 浏览

php - 抓取电子邮件地址

fff.html 是一封包含电子邮件地址的电子邮件,有些有 href mailto 链接,有些没有,我想抓取它们并将它们输出为以下格式

我有一个简单的刮刀来获取那些链接href但有些奇怪的东西

我应该为最初使用 lorem ipsum 加分

0 投票
3 回答
3254 浏览

php - 如何在 PHP 中创建 HTML 刮板并使其正常工作?

请帮忙!:(

我希望开发一个 PHP 脚本来执行以下操作:

  • 报废一个远程 HTML 页面并提取选定的数据(例如特定的表/div)
  • 使用提取的数据并将其保存到数据库中(例如 MySql)

任何人都可以帮忙吗?

感谢并感谢您的尽快反馈。

0 投票
1 回答
356 浏览

python - Facebook 流 API 错误适用于浏览器,但不适用于服务器端

如果我在浏览器中输入此 URL,它会返回我有兴趣抓取的有效 XML 数据。

但是,如果我从服务器端执行此操作,则它不会像以前那样工作。现在它只是返回这个错误,这似乎是默认的错误信息

这是有问题的代码,我尝试了多个用户代理,但无济于事:

除了用户代理和 IP 地址之外,服务器调用和我自己的浏览器之间有什么区别?

0 投票
2 回答
573 浏览

hyperlink - 有没有办法通过 URL 找到所有页面的链接?

如果我有链接说http://yahoo.com/那么我可以在 yahoo 中获取链接吗?例如,我有一个网站http://umair.com/,我知道只有 5 页主页、关于、投资组合、常见问题、联系方式,所以我可以通过编程方式获取如下链接吗?