问题标签 [web-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41702 问题

0 投票

10 回答

107824 浏览

java - 如何“扫描”网站（或页面）以获取信息，并将其带入我的程序？

好吧，我非常想弄清楚如何从网页中提取信息，并将其带入我的程序（在 Java 中）。

例如，如果我知道我想从中获取信息的确切页面，为了简单起见，百思买商品页面，我如何从该页面获取我需要的适当信息？喜欢标题，价格，描述？

这个过程甚至会被称为什么？我什至不知道要开始研究这个。

编辑：好的，我正在对 JSoup（BalusC 发布的那个）进行测试，但我不断收到此错误：

我确实有 Apache Commons

java html web-scraping jsoup

2010-05-14T15:48:17.160

0 投票

4 回答

5594 浏览

php - PHP 和 curl 用于从 Yahoo Finance 获取货币汇率

我编写了以下 php 代码片段以从 Yahoo Finance 获取货币兑换率。

我正在使用 curl 来获取数据。假设，我想从美元 (USD) 转换为印度国家卢比 (INR)，那么网址是http://in.finance.yahoo.com/currency/convert?amt=1&from=USD&to=INR&submit=和印度卢比值显示为 45.225。但是，如果我运行我的代码，我得到的值是 452.25。为什么会出现这种差异？

我的正则表达式有问题吗？

php regex curl web-scraping

2010-05-15T22:41:30.337

0 投票

2 回答

1234 浏览

java - 数据提取？

我正在寻找从各种网站提取各种数据的方法。我知道那里有你可以购买的程序，但我正在努力学习，我想自己做。有没有人对一般结构有任何建议，如果有，你会用什么语言编写它。我的第一个想法是 java，但我非常愿意和感激听到其他人的意见。

java web-scraping

2010-05-17T13:21:23.473

0 投票

2 回答

891 浏览

java - 任何人都有一个很好的解决方案来抓取带有 Javascript 生成的内容（在本例中为 HTML 表）的页面的 HTML 源代码？

任何人都有一个很好的解决方案来抓取带有 Javascript 生成的内容（在本例中为 HTML 表）的页面的 HTML 源代码？

使用Crowbar的一个非常简单但可行的解决方案：

使用 Crowbar 的优势在于，由于基于无头 mozilla 的浏览器，表格将被呈现（并可访问）。编辑：发现 Crowbar 的问题是一个冲突的应用程序，而不是服务器停机时间，这只是一个巧合。

java php dom web-scraping html-table

2010-05-18T04:25:43.537

0 投票

3 回答

4697 浏览

php - 在 php 中抓取大量页面的最快方法是什么？

我有一个数据聚合器，它依赖于抓取多个站点，并以用户可搜索的方式索引它们的信息。

我需要能够每天抓取大量页面，并且我在使用简单的 curl 请求时遇到了问题，这些请求在长时间快速执行时相当慢（抓取器基本上 24/7 运行）。

在简单的 while 循环中运行多卷曲请求相当慢。我通过在后台进程中执行单独的 curl 请求来加速它，它运行得更快，但迟早较慢的请求开始堆积，最终导致服务器崩溃。

是否有更有效的数据抓取方式？也许命令行卷曲？

php curl screen-scraping web-scraping curl-multi

user15063

2010-05-20T14:47:56.697

0 投票

1 回答

1187 浏览

c# - 以编程方式提交表单并循环分页（C#.NET）

我需要编写一个自定义的网络抓取工具来挖掘一些数据。？我知道如何使用 HttpWebRequest 类 Post 方法提交表单。我的挑战是遍历结果页面并从每个页面中检索记录。

有没有人有代码示例或文章指向？谢谢

2010-05-24T06:50:16.847

0 投票

1 回答

1794 浏览

android - 用于 Android 应用程序的 Java 网页抓取建议/帮助！

我听说过可以从网页中获取数据的网络抓取软件。我正在构建一个 android 应用程序，我想从这个网站 www.menupages.ie 获取信息

我只需要餐厅的名称，而自己输入它们会非常乏味。

有人可以告诉我如何在 Eclipse 中执行此操作，我需要什么方法等。我对此一无所知。

非常感谢。

android web-scraping

2010-05-26T13:46:26.887

0 投票

3 回答

98723 浏览

python - BeautifulSoup：获取特定表的内容

我当地的机场可耻地阻止了没有 IE 的用户，看起来很糟糕。我想编写一个 Python 脚本，每隔几分钟就会获取到达和离开页面的内容，并以更易读的方式显示它们。

我选择的工具是mechanize用于欺骗网站相信我使用 IE，以及BeautifulSoup用于解析页面以获取航班数据表。

老实说，我迷失在 BeautifulSoup 文档中，无法理解如何从整个文档中获取表格（我知道其标题），以及如何从该表格中获取行列表。

有任何想法吗？

python web-scraping beautifulsoup tabular

2010-05-29T15:41:56.587

0 投票

6 回答

58141 浏览

android - 在 Android 中抓取 HTML 网页的最快方法是什么？

我需要从 Android 中的非结构化网页中提取信息。我想要的信息嵌入在没有 id 的表中。

我应该使用

模式匹配？
使用 BufferedReader 提取信息？

还是有更快的方法来获取这些信息？

android html web-scraping

2010-06-04T02:33:13.133

0 投票

2 回答

2081 浏览

php - 编写一个程序来抓取论坛

我需要编写一个程序来抓取论坛。

我应该使用 Scrapy 框架在 Python 中编写程序还是应该使用 Php cURL？还有一个相当于 Scrapy 的 Php 吗？

谢谢

php python information-retrieval scrapy web-scraping

2010-06-05T13:28:04.597

1 2 3 4 5 6 7 8 9 10