问题标签 [web-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41702 问题

0 投票

3 回答

1402 浏览

php - .asp 页面调用远程 .php 页面

我需要将数据从 IIS Web 服务器 A 发送到 Apache Web 服务器 B。两台服务器在不同的物理机器上运行，并具有不同的静态 IP 地址。在服务器 A 上运行一个 processForm.asp，它处理一些数据，我想将数据发送到 Web 服务器 B，比如说让 processData.php（在服务器 B 上）进一步处理数据。这可能吗？如果是，请帮忙。

非常感谢您提前提供帮助。

2010-07-28T09:03:50.747

0 投票

4 回答

1565 浏览

web-scraping - 如何抓取 Hype Machine 等网站？

我很好奇网站抓取（即它是如何完成的等等），特别是我想编写一个脚本来执行网站Hype Machine的任务。我实际上是一名软件工程本科生（第 4 年），但是我们并没有真正涵盖任何 Web 编程，所以我对 Javascript/RESTFul API/All things Web 的理解非常有限，因为我们主要关注理论和客户端应用程序。非常感谢任何帮助或指示。

web-scraping screen-scraping

2010-07-31T23:56:25.760

0 投票

4 回答

1994 浏览

python - 是否有任何 python 库来抓取搜索引擎（S）结果？

我正在寻找一个 python 库来从搜索引擎（谷歌、雅虎、必应等）中抓取结果。

我只找到了谷歌-> http://github.com/kevinw/xgoogle/tree/253db7ddc8603a9dcb038ae42684cf3499a22a4b

有人知道一个用于多个搜索引擎吗？

python search-engine screen-scraping web-scraping

2010-08-01T23:07:18.030

0 投票

4 回答

2440 浏览

php - 是否有任何语言对于网络抓取来说是“完美”的？

我已经使用 3 种语言进行 Web Scraping - Ruby、PHP 和 Python，老实说，它们似乎都不适合这项任务。

Ruby 具有出色的机械化和 XML 解析库，但对电子表格的支持很差。

PHP 具有出色的电子表格和 HTML 解析库，但它没有 WWW:Mechanize 的等价物。

Python 有一个非常糟糕的机械化库。我有很多问题，但仍然无法解决。它的电子表格库也或多或少不错，因为它无法创建 XLSX 文件。

有什么适合网络抓取的东西吗？

PS：我在windows平台上工作。

php python ruby web-scraping

2010-08-12T13:18:07.853

0 投票

3 回答

10920 浏览

html - 抓取网站并将其转换为 HTML？

我已经有 3 或 4 年没有这样做了，但是客户希望将他们的动态网站降级为静态 HTML。

是否有任何免费工具可以抓取域并生成有效的 HTML 文件以使其快速而轻松？

编辑：这是一个 Coldfusion 网站，如果这很重要的话。

html screen-scraping web-scraping

2010-08-12T15:30:30.153

0 投票

4 回答

1369 浏览

c# - 如何使用 IE/.Net/C# 进行真正的多线程 Web 挖掘？

我想使用 IE 浏览器从网络上挖掘大量数据。但是，通过 WatiN 生成大量 IE 实例会使系统崩溃。有没有更好的方法来做到这一点？请注意，我不能简单地这样做WebRequests- 由于必须与网站上的 JS 驱动行为进行交互，我真的需要浏览器。

c#.net web-scraping data-mining watin

2010-08-14T17:24:01.567

0 投票

1 回答

807 浏览

java - 如何使用 Java 导航 Web 搜索

我需要为一个项目搜集法国法庭案件，但我不知道如何让 Java 浏览法庭的搜索引擎。

这是我需要操作的搜索页面。我想开始抓取结果页面，但我无法仅通过 URL 从 Java 访问该页面。我需要一些方法让 Java 命令服务器根据我的日期参数（01/01/2003 - 30/06/2003）执行搜索，然后我可以通过简单地操作我要连接的 URL 来运行节目.

有什么建议么？

java web-scraping

2010-08-16T17:00:44.570

0 投票

3 回答

1868 浏览

java - 如何从 Java Web 应用程序中提取数据？

我需要从 Java Web 应用程序中提取数据。具体来说，我希望从雅虎市场跟踪器中提取实时股票数据。任何人都可以建议任何方法吗？

java networking scripting web-scraping yahoo-finance

2010-08-18T18:17:47.283

0 投票

6 回答

2068 浏览

asp.net - 阻止自动化工具访问网站

我们网站上的数据很容易被抓取。我们如何检测是否有人在查看网站或工具？

一种方法是计算用户在页面上停留的时间。我不知道如何实现。任何人都可以帮助检测和防止自动化工具从我的网站上抓取数据吗？

我在登录部分使用了安全图像，但即便如此，人类也可以登录然后使用自动化工具。当 recaptcha 图像在一段时间后出现时，用户可以键入安全图像，然后再次使用自动化工具继续抓取数据。

我开发了一个工具来抓取另一个网站。所以我只想防止这种情况发生在我的网站上！

asp.net authentication web-scraping recaptcha

2010-08-19T05:17:54.347

0 投票

2 回答

564 浏览

r - 如何从 stackexchange 主页上抓取“表样”数据？（在 R 中）

我想抓取一个新的 stackexchange 网站的主页：https ://webapps.stackexchange.com/ （只有一次，并且只有几个页面，没有什么应该打扰服务器）。如果我想从 stackoverflow 获得它，我知道有一个数据库转储，但是对于新的 stackexchange，它们还不存在。

这就是我想要做的。

第一步：选择网址

第二步：读表

第 2 步：这一次，让我们用 XML 试试吧

所以我能够阅读页面，但现在结构在 div 中。现在如何使用它来创建与 readHTMLTable 相同的东西？

r web-scraping

2010-08-20T17:28:20.483

1 2 3 4 5 6 7 8 9 10

问题标签 [web-scraping]

Reference