问题标签 [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
10 回答
107824 浏览

java - 如何“扫描”网站(或页面)以获取信息,并将其带入我的程序?

好吧,我非常想弄清楚如何从网页中提取信息,并将其带入我的程序(在 Java 中)。

例如,如果我知道我想从中获取信息的确切页面,为了简单起见,百思买商品页面,我如何从该页面获取我需要的适当信息?喜欢标题,价格,描述?

这个过程甚至会被称为什么?我什至不知道要开始研究这个。

编辑:好的,我正在对 JSoup(BalusC 发布的那个)进行测试,但我不断收到此错误:

我确实有 Apache Commons

0 投票
4 回答
5594 浏览

php - PHP 和 curl 用于从 Yahoo Finance 获取货币汇率

我编写了以下 php 代码片段以从 Yahoo Finance 获取货币兑换率。

我正在使用 curl 来获取数据。假设,我想从美元 (USD) 转换为印度国家卢比 (INR),那么网址是http://in.finance.yahoo.com/currency/convert?amt=1&from=USD&to=INR&submit=和印度卢比值显示为 45.225。但是,如果我运行我的代码,我得到的值是 452.25。为什么会出现这种差异?

我的正则表达式有问题吗?

0 投票
2 回答
1234 浏览

java - 数据提取?

我正在寻找从各种网站提取各种数据的方法。我知道那里有你可以购买的程序,但我正在努力学习,我想自己做。有没有人对一般结构有任何建议,如果有,你会用什么语言编写它。我的第一个想法是 java,但我非常愿意和感激听到其他人的意见。

0 投票
2 回答
891 浏览

java - 任何人都有一个很好的解决方案来抓取带有 Javascript 生成的内容(在本例中为 HTML 表)的页面的 HTML 源代码?

任何人都有一个很好的解决方案来抓取带有 Javascript 生成的内容(在本例中为 HTML 表)的页面的 HTML 源代码?

使用Crowbar的一个非常简单但可行的解决方案:

使用 Crowbar 的优势在于,由于基于无头 mozilla 的浏览器,表格将被呈现(并可访问)。编辑:发现 Crowbar 的问题是一个冲突的应用程序,而不是服务器停机时间,这只是一个巧合。

0 投票
3 回答
4697 浏览

php - 在 php 中抓取大量页面的最快方法是什么?

我有一个数据聚合器,它依赖于抓取多个站点,并以用户可搜索的方式索引它们的信息。

我需要能够每天抓取大量页面,并且我在使用简单的 curl 请求时遇到了问题,这些请求在长时间快速执行时相当慢(抓取器基本上 24/7 运行)。

在简单的 while 循环中运行多卷曲请求相当慢。我通过在后台进程中执行单独的 curl 请求来加速它,它运行得更快,但迟早较慢的请求开始堆积,最终导致服务器崩溃。

是否有更有效的数据抓取方式?也许命令行卷曲?

0 投票
1 回答
1187 浏览

c# - 以编程方式提交表单并循环分页(C#.NET)

我需要编写一个自定义的网络抓取工具来挖掘一些数据。?我知道如何使用 HttpWebRequest 类 Post 方法提交表单。我的挑战是遍历结果页面并从每个页面中检索记录。

有没有人有代码示例或文章指向?谢谢

0 投票
1 回答
1794 浏览

android - 用于 Android 应用程序的 Java 网页抓取建议/帮助!

我听说过可以从网页中获取数据的网络抓取软件。我正在构建一个 android 应用程序,我想从这个网站 www.menupages.ie 获取信息

我只需要餐厅的名称,而自己输入它们会非常乏味。

有人可以告诉我如何在 Eclipse 中执行此操作,我需要什么方法等。我对此一无所知。

非常感谢。

0 投票
3 回答
98723 浏览

python - BeautifulSoup:获取特定表的内容

我当地的机场可耻地阻止了没有 IE 的用户,看起来很糟糕。我想编写一个 Python 脚本,每隔几分钟就会获取到达和离开页面的内容,并以更易读的方式显示它们。

我选择的工具是mechanize用于欺骗网站相信我使用 IE,以及BeautifulSoup用于解析页面以获取航班数据表。

老实说,我迷失在 BeautifulSoup 文档中,无法理解如何从整个文档中获取表格(我知道其标题),以及如何从该表格中获取行列表。

有任何想法吗?

0 投票
6 回答
58141 浏览

android - 在 Android 中抓取 HTML 网页的最快方法是什么?

我需要从 Android 中的非结构化网页中提取信息。我想要的信息嵌入在没有 id 的表中。

我应该使用

  • 模式匹配?
  • 使用 BufferedReader 提取信息?

还是有更快的方法来获取这些信息?

0 投票
2 回答
2081 浏览

php - 编写一个程序来抓取论坛

我需要编写一个程序来抓取论坛。

我应该使用 Scrapy 框架在 Python 中编写程序还是应该使用 Php cURL?还有一个相当于 Scrapy 的 Php 吗?

谢谢