问题标签 [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
357 浏览

gwt - 新的gwt接口自动化测试

因此,我们的前端 GUI 正在对基于 GWT 的新应用程序进行大修。我一直致力于在一些 tcl/expect 脚本中使用 cURL 为旧前端创建自动化脚本。当我查看新应用程序时,我开始越来越意识到 cURL 对于执行这些 Web 交互是不可能的,并且想知道是否有人对测试使用 GWT 制作的 Web 应用程序有一些想法/经验?任何帮助,将不胜感激!!

0 投票
2 回答
521 浏览

web-scraping - txt 模式下的网页抓取

我目前正在使用 watir 对网站进行网络抓取,以隐藏通常 HTML 源中的所有数据。如果我没记错的话,他们是在使用 XML 和那些 AJAX 技术来隐藏它。Firefox 可以看到它,但它是通过“DOM 选择源”显示的。

一切正常,但现在我正在寻找与 watir 等效的工具,但一切都需要在没有浏览器的情况下完成。一切都需要在txt文件中完成。

事实上,现在,watir 正在使用我的浏览器来模拟页面并将我正在查找的整个 html 代码返回给我。我也想一样,但没有浏览器。

可能吗 ?

谢谢问候德

0 投票
10 回答
140086 浏览

java - 使用 Java 进行网页抓取

我找不到任何好的网络抓取基于 Java 的 API。我需要抓取的站点也不提供任何 API;我想使用一些迭代所有网页pageID并在其 DOM 树中提取 HTML 标题/其他内容。

除了网页抓取之外还有其他方法吗?

0 投票
3 回答
75 浏览

python - 在python中确定网站上的站点数量

我有以下链接:

http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-0001&language=EN

url 的参考部分有以下信息:

A7 ==议会(现任为第七届议会,前为A6等)

2010 == 年

0001 == 文件编号

对于每年和议会,我想确定网站上的文件数量。任务很复杂,例如,对于 2010 年,数字 186、195,196 有空页,而最大数字是 214。理想情况下,输出应该是一个包含所有文档编号的向量,不包括丢失的文档编号。

谁能告诉我这在python中是否可行?

最好的,托马斯

0 投票
1 回答
1865 浏览

java - Android/Java:模拟点击此网页

去年我做了一个 Android 应用程序,它取消了我在比利时的火车公司的信息(应用程序是 BETrains:http ://www.cyrket.com/p/android/tof.cv.mpp/ )

这个应用程序真的很酷,它允许用户与火车上的其他人交谈(一个消息服务器由我运行)并且对话也在 Twitter 上:http: //twitter.com/betrains

比利时的每个人都喜欢它。该公司试图避免我们使用他们的数据,让一些用户的网站关闭,但他们是一些攻击公司的律师,最后我们没有更多的问题,网站是开放的:http: //blog.tuinslak.org/2010 /07/irail 回来了

所以,从法律上讲,我的申请(目前)是完全正确和合法的,但我没有得到火车公司的帮助。

所以我的问题是对获取数据有一点帮助。我现在是一个 android/java 初学者,花了几个星期来尝试找到一个解决方案,但也许喜欢的人会在几分钟内找到它。

所以问题是下一个。您可以查看以下 URL,您会在 URL 中找到 2 个城市名称:Mons 和 Tournai,以及有关日期和时间的信息。那是一年有效的旧方法:

http://hari.b-holding.be/Hafas/bin/query.exe/en?&REQ0JourneyStopsS0A=1&REQ0JourneyStopsS0G=MONS%20[b]&REQ0JourneyStopsZ0A=1&REQ0JourneyStopsZ0G=TOURNAI%20[b]&REQ0JourneyDate=27.010.10:10&REQ0JourneyTime= 030&Timesel=出发&ViaName=&ViaMode=NEE&DateMode=ANDERS&PLANNER=TRUE&start=1&queryPageDisplayed=yes

但是现在,该 URL 将我带到一个确认页面,我必须单击确认按钮才能进入下一页。

所以我的代码将不再工作,我需要以编程方式单击此按钮才能到达正确的网页。

您对如何模拟单击此按钮有任何想法吗?现在我的代码是经典的报废代码,顶部有几行 URL。我假设 URL 给了我结果页面。直到上周都是如此。

您对如何改进代码有任何想法吗?

由于该软件是免费的,我无法向贝宝汇款,但整个国家都会非常感谢可能提供帮助的人!

非常感谢。

0 投票
2 回答
3464 浏览

perl - Perl网络爬虫,从只有“样式”标签的DIV中提取内容?

我一直坚持这一天。我对在 perl 中解析/抓取仍然很陌生,但我认为我已经完成了它。我一直在尝试使用不同的 perl 模块(tokeparser,tokeparser:简单,网络解析器和其他一些)......我有以下字符串(实际上它实际上是一个完整的HTML页面,但这只是显示相关部分..我正在尝试提取“text1”和“text1_a”。 .等等(“text1”等只是作为一个例子放在那里)......所以基本上我认为我需要先从每个中提取这个:

然后解析它以获取 2 个值。我不知道为什么这给我带来了这么多麻烦,因为我认为我可以在 tokeparser:simple 中做到这一点,但我似乎无法返回 DIV 内部的值,我想知道是不是因为它包含另一组标签(标签)

字符串(代表 html 网页)

我在 perl web 解析器模块中的尝试:

我只是有点盲目地试图理解 web:parser 模块,因为它基本上没有文档,所以我只是从模块中包含的示例和我在互联网上找到的示例中拼凑起来..任何建议非常感谢。

0 投票
2 回答
2920 浏览

php - cURL 出错 - “无法解析主机:www.bbb.org(; 没有请求类型的数据记录”

我正在尝试使用 cURL访问http://www.bbb.org/us/Find-Business-Reviews/的数据。现在我使用 HTTPFox 查看该站点发送了哪些数据,并相应地创建了一个数组以“POST”到页面。但我在访问第 2、3、4、5 页时遇到问题...

这是数组 -

但我总是遇到同样的错误 -

“无法解析主机:www.bbb.org(;没有请求类型的数据记录”

这是我正在使用的 cURL 函数

0 投票
1 回答
3866 浏览

php - PHP中是否有任何“虚拟浏览器”?

你好,

我想从网站中提取数据,但它使用了一些奇怪的 javascript,所以我无法使用 cURL 完成工作。我想知道有没有类似虚拟浏览器的东西可以打开页面,我可以点击一些按钮?

如果没有,是否有任何可执行程序可以通过命令行完成此任务?

0 投票
2 回答
279 浏览

php - 在 PHP 中登录 Javascript

我一直在用 PHP 为内部应用程序创建一个网络抓取工具,但是其中一个页面有一个 JavaScript 登录,有没有什么方法可以像往常一样自动登录来抓取数据?

(我正在使用 curl 登录其他两个站点)

0 投票
2 回答
756 浏览

scripting - 如何获取 Wikipedia 上文章的完整更改历史记录?

我想要一种方法来下载维基百科上热门文章历史中每一页的内容。换句话说,我想获得一篇文章的每次编辑的全部内容。我该怎么做呢?

有没有一种简单的方法可以使用 Wikipedia API 来做到这一点。我看了看,没有发现任何弹出的简单解决方案。我还查看了 PyWikipedia Bot 页面 ( http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813 ) 上的脚本,但没有找到任何有用的东西。用 Python 或 Java 做一些简单的方法是最好的,但我愿意接受任何可以让我获得数据的简单解决方案。