问题标签 [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1402 浏览

php - .asp 页面调用远程 .php 页面

我需要将数据从 IIS Web 服务器 A 发送到 Apache Web 服务器 B。两台服务器在不同的物理机器上运行,并具有不同的静态 IP 地址。在服务器 A 上运行一个 processForm.asp,它处理一些数据,我想将数据发送到 Web 服务器 B,比如说让 processData.php(在服务器 B 上)进一步处理数据。这可能吗?如果是,请帮忙。

非常感谢您提前提供帮助。

0 投票
4 回答
1565 浏览

web-scraping - 如何抓取 Hype Machine 等网站?

我很好奇网站抓取(即它是如何完成的等等),特别是我想编写一个脚本来执行网站Hype Machine的任务。我实际上是一名软件工程本科生(第 4 年),但是我们并没有真正涵盖任何 Web 编程,所以我对 Javascript/RESTFul API/All things Web 的理解非常有限,因为我们主要关注理论和客户端应用程序。非常感谢任何帮助或指示。

0 投票
4 回答
1994 浏览

python - 是否有任何 python 库来抓取搜索引擎(S)结果?

我正在寻找一个 python 库来从搜索引擎(谷歌、雅虎、必应等)中抓取结果。

我只找到了谷歌-> http://github.com/kevinw/xgoogle/tree/253db7ddc8603a9dcb038ae42684cf3499a22a4b

有人知道一个用于多个搜索引擎吗?

0 投票
4 回答
2440 浏览

php - 是否有任何语言对于网络抓取来说是“完美”的?

我已经使用 3 种语言进行 Web Scraping - Ruby、PHP 和 Python,老实说,它们似乎都不适合这项任务。

Ruby 具有出色的机械化和 XML 解析库,但对电子表格的支持很差。

PHP 具有出色的电子表格和 HTML 解析库,但它没有 WWW:Mechanize 的等价物。

Python 有一个非常糟糕的机械化库。我有很多问题,但仍然无法解决。它的电子表格库也或多或少不错,因为它无法创建 XLSX 文件。

有什么适合网络抓取的东西吗?

PS:我在windows平台上工作。

0 投票
3 回答
10920 浏览

html - 抓取网站并将其转换为 HTML?

我已经有 3 或 4 年没有这样做了,但是客户希望将他们的动态网站降级为静态 HTML。

是否有任何免费工具可以抓取域并生成有效的 HTML 文件以使其快速而轻松?

编辑:这是一个 Coldfusion 网站,如果这很重要的话。

0 投票
4 回答
1369 浏览

c# - 如何使用 IE/.Net/C# 进行真正的多线程 Web 挖掘?

我想使用 IE 浏览器从网络上挖掘大量数据。但是,通过 WatiN 生成大量 IE 实例会使系统崩溃。有没有更好的方法来做到这一点?请注意,我不能简单地这样做WebRequests- 由于必须与网站上的 JS 驱动行为进行交互,我真的需要浏览器。

0 投票
1 回答
807 浏览

java - 如何使用 Java 导航 Web 搜索

我需要为一个项目搜集法国法庭案件,但我不知道如何让 Java 浏览法庭的搜索引擎。

这是我需要操作的搜索页面。我想开始抓取结果页面,但我无法仅通过 URL 从 Java 访问该页面。我需要一些方法让 Java 命令服务器根据我的日期参数(01/01/2003 - 30/06/2003)执行搜索,然后我可以通过简单地操作我要连接的 URL 来运行节目.

有什么建议么?

0 投票
3 回答
1868 浏览

java - 如何从 Java Web 应用程序中提取数据?

我需要从 Java Web 应用程序中提取数据。具体来说,我希望从雅虎市场跟踪器中提取实时股票数据。任何人都可以建议任何方法吗?

0 投票
6 回答
2068 浏览

asp.net - 阻止自动化工具访问网站

我们网站上的数据很容易被抓取。我们如何检测是否有人在查看网站或工具?

一种方法是计算用户在页面上停留的时间。我不知道如何实现。任何人都可以帮助检测和防止自动化工具从我的网站上抓取数据吗?

我在登录部分使用了安全图像,但即便如此,人类也可以登录然后使用自动化工具。当 recaptcha 图像在一段时间后出现时,用户可以键入安全图像,然后再次使用自动化工具继续抓取数据。

我开发了一个工具来抓取另一个网站。所以我只想防止这种情况发生在我的网站上!

0 投票
2 回答
564 浏览

r - 如何从 stackexchange 主页上抓取“表样”数据?(在 R 中)

我想抓取一个新的 stackexchange 网站的主页:https ://webapps.stackexchange.com/ (只有一次,并且只有几个页面,没有什么应该打扰服务器)。如果我想从 stackoverflow 获得它,我知道有一个数据库转储,但是对于新的 stackexchange,它们还不存在。

这就是我想要做的。

第一步:选择网址

第二步:读表

第 2 步:这一次,让我们用 XML 试试吧

所以我能够阅读页面,但现在结构在 div 中。现在如何使用它来创建与 readHTMLTable 相同的东西?