问题标签 [scraper]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

357 问题

0 投票

5 回答

13795 浏览

java - 使用 Java 从 HTML 页面中抓取数据，输出到数据库

我需要知道如何创建一个刮板（在 Java 中）以从 HTML 页面收集数据并输出到数据库......不知道从哪里开始，所以你可以给我的任何信息都会很棒。另外，你在这里不能太基本或简单......谢谢:)

java scraper

2010-03-18T15:29:21.120

0 投票

2 回答

6452 浏览

python - Beautifulsoup 和 mechanize 获取 ajax 调用结果

嗨，我正在使用 python 2.5 和 beautifulsoup 构建一个刮板，但我遇到了一个问题......用户单击某个按钮后正在生成网页的一部分，通过使用适当的参数调用特定的 javacsript 函数来启动 ajax 请求

有没有办法模拟用户交互并得到这个结果？我遇到了一个机械化模块，但在我看来，这主要用于处理表单......

我将不胜感激任何链接或一些代码示例谢谢

python ajax beautifulsoup mechanize scraper

2010-04-09T19:01:24.293

0 投票

3 回答

3745 浏览

php - Facebook 喜欢点播元内容抓取工具

你们有没有见过，FB 会在您将其粘贴到链接字段后立即抓取您在 facebook 上发布的链接（状态、消息等），并显示各种元数据、图像的拇指、来自页面链接的各种图像或来自视频相关链接（如 youtube）的视频拇指。

任何想法如何复制此功能？我正在考虑几个齿轮工，或者甚至更好的是 javascript，它执行 xhr 请求并根据正则表达式或类似的东西解析内容......有什么想法吗？任何链接？是否有人已经尝试过这样做并将其包装在一个不错的班级中？任何事物？:)

谢谢！

php facebook metadata scraper

2010-06-03T01:49:06.057

0 投票

1 回答

9368 浏览

pdf - 从域中获取所有 pdf 文件（例如 *.adomain.com）

我需要从某个域下载所有 pdf 文件。该域上大约有 6000 个 pdf，其中大多数没有 html 链接（他们已经删除了链接，或者他们从未将链接放在首位）。

我知道大约有 6000 个文件，因为我正在谷歌搜索：filetype:pdf site:*.adomain.com

但是，Google 仅列出前 1000 个结果。我相信有两种方法可以实现这一目标：

a) 使用谷歌。但是，我如何才能从 Google 获得所有 6000 个结果？也许是刮刀？（试过 scroogle，没有运气） b）跳过谷歌并直接在域上搜索 pdf 文件。当大多数它们没有链接时，我该怎么做？

pdf download scraper

2010-06-05T09:02:04.353

0 投票

6 回答

37268 浏览

web-crawler - 履带式与刮板式

有人可以根据范围和功能区分爬虫和抓取工具吗？

web-crawler terminology scraper

2010-07-08T19:56:11.633

0 投票

6 回答

2050 浏览

screen-scraping - 阻止网络抓取工具

网站可以通过哪些方式阻止网络爬虫？您如何确定您的服务器是否正在被机器人访问？

screen-scraping web-crawler scraper

2010-08-05T07:06:09.497

0 投票

1 回答

4240 浏览

php - 抓取电子邮件地址

fff.html 是一封包含电子邮件地址的电子邮件，有些有 href mailto 链接，有些没有，我想抓取它们并将它们输出为以下格式

我有一个简单的刮刀来获取那些链接href但有些奇怪的东西

我应该为最初使用 lorem ipsum 加分

php substr strpos scraper

2010-08-12T17:21:57.317

0 投票

3 回答

3254 浏览

php - 如何在 PHP 中创建 HTML 刮板并使其正常工作？

请帮忙！:(

我希望开发一个 PHP 脚本来执行以下操作：

报废一个远程 HTML 页面并提取选定的数据（例如特定的表/div）
使用提取的数据并将其保存到数据库中（例如 MySql）

任何人都可以帮忙吗？

感谢并感谢您的尽快反馈。

php mysql scraper

2010-08-24T10:29:34.687

0 投票

1 回答

356 浏览

python - Facebook 流 API 错误适用于浏览器，但不适用于服务器端

如果我在浏览器中输入此 URL，它会返回我有兴趣抓取的有效 XML 数据。

但是，如果我从服务器端执行此操作，则它不会像以前那样工作。现在它只是返回这个错误，这似乎是默认的错误信息

这是有问题的代码，我尝试了多个用户代理，但无济于事：

除了用户代理和 IP 地址之外，服务器调用和我自己的浏览器之间有什么区别？

python facebook scraper

2010-08-30T16:47:30.360

0 投票

2 回答

573 浏览

hyperlink - 有没有办法通过 URL 找到所有页面的链接？

如果我有链接说http://yahoo.com/那么我可以在 yahoo 中获取链接吗？例如，我有一个网站http://umair.com/，我知道只有 5 页主页、关于、投资组合、常见问题、联系方式，所以我可以通过编程方式获取如下链接吗？

hyperlink scraper

2010-08-30T19:59:03.953

1 2 3 4 5 6 7 8 9 10