问题标签 [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
9 回答
22307 浏览

screen-scraping - 屏幕刮板如何工作?

我一直听到人们在编写这些程序,我知道他们在做什么,但他们实际上是如何做到的呢?我正在寻找一般概念。

0 投票
11 回答
109795 浏览

java - Java HTML 解析

我正在开发一个从网站上抓取数据的应用程序,我想知道我应该如何获取数据。具体来说,我需要包含在许多使用特定 CSS 类的 div 标签中的数据 - 目前(出于测试目的)我只是在检查

在 HTML 的每一行中 - 这行得通,但我不禁觉得那里有更好的解决方案。

有什么好方法可以让我给一个类一行 HTML 并有一些很好的方法,比如:

0 投票
10 回答
71138 浏览

ajax - 你如何抓取 AJAX 页面?

请告知如何抓取 AJAX 页面。

0 投票
4 回答
71192 浏览

php - 抓取网页内容

我正在开发一个项目,我想在后台抓取网站的内容并从该抓取的网站中获取一些有限的内容。例如,在我的页面中,我有“userid”和“password”字段,通过使用这些字段,我将访问我的邮件并抓取我的收件箱内容并将其显示在我的页面中。

我单独使用javascript完成了上述操作。但是当我单击登录按钮时,我的页面的 URL ( http://localhost/web/Login.html ) 更改为 URL ( http://mail.in.com/mails/inbox.php?nomail= ... .) 我被刮了。但是我在不更改网址的情况下取消了详细信息。

0 投票
13 回答
15381 浏览

programming-languages - 什么是最好的屏幕抓取语言?

嗨,我想创建一个桌面应用程序 (c# prob) 来抓取或操作 3rd 方网页上的表单。基本上我在桌面应用程序的表单中输入我的数据,它会转到第 3 方网站,然后使用脚本或后台的任何内容,在那里输入我的数据(包括我的登录名)并为我单击提交按钮。我只是想避免加载浏览器!

在这方面没有做太多(任何!)工作我想知道像 perl、python、ruby 等脚本语言是否允许我这样做?或者干脆使用 c# 和 .net 完成所有的抓取?哪一个是最好的IYO?

我在想脚本可能需要从不同平台上的应用程序中挂钩到相同的脚本(例如 symbian 移动设备,我无法像桌面版本那样在 c# 中开发它)。

它不是网络应用程序,否则我不妨使用原始网站。我意识到这一切听起来毫无意义,但这种特定形式的自动化对我来说将是一个真正的节省时间。

0 投票
2 回答
1210 浏览

asp.net - Python 在组合框中选择一个值和 HTTP POST

在 Python 中,我试图读取http://utahcritseries.com/RawResults.aspx上的值。除了默认的 2002 年,我如何读取年份?

到目前为止,使用 mechanize,我已经能够引用 SELECT 并列出其所有可用的选项/值,但不确定如何更改其值并重新提交表单。

我确定这是一个常见问题并且经常被问到,但我不确定我什至应该搜索什么。

0 投票
4 回答
30730 浏览

php - curl 无法获取网页内容,为什么?

我正在使用 curl 脚本转到链接并获取其内容以进行进一步操作。以下是链接和 curl 脚本:

但是该网站并没有通过脚本将其排除在外,它会在结果中给用户异常,但是如果我们通常将 url 粘贴到浏览器中,它会完美地打开页面。

请帮忙,我在这里做错了什么。

谢谢并恭祝安康

0 投票
5 回答
42435 浏览

c# - 如何以编程方式登录网站以进行屏幕显示?

我需要来自不属于我的网站的一些信息,为了获取这些信息,我需要登录该网站以收集信息,这通过 HTML 表单进行。如何在 C# 中进行此经过身份验证的屏幕截图?

额外的信息:

  • 基于 Cookie 的身份验证。
  • 需要 POST 操作。
0 投票
16 回答
288105 浏览

python - 使用 python 和 BeautifulSoup 从网页中检索链接

如何检索网页的链接并使用 Python 复制链接的 url 地址?

0 投票
3 回答
1939 浏览

web-applications - 自动浏览器导航和数据提取

我正在尝试从网站自动提取数据,但我真的不知道从哪里开始。我们的一个供应商允许我们通过“ Business Objects 11 ”访问一些设备记录数据。” 在线应用程序。如果您不熟悉此在线应用程序,请将其视为基于 Web 的报告生成器。问题是我正在尝试监控很多设备,而该供应商仅创建了一个提取一个日志的请求一次。这个请求需要设备号,开始日期和结束日期......更糟糕的是,我们只能导出为二进制 Excel 格式,因为 de "csv" 导出已损坏并且他们拒绝修复它.. . 因此我们受到 Excel 的 65 536 行限制...(在我的情况下相当于 3-4 天的数据记录)。我无法创建新的请求,因为只有供应商拥有必要的管理员权限。

您认为通过 Web GUI 运行大量请求(大约 800 个)的最优雅方式是什么?我想我可以硬编码鼠标位置、点击事件和按键延迟等等……但必须有更好的方法。

我阅读了有关 AutoHotKey 和 AutoIt 脚本的信息,但它们似乎受限于它们可以在网络上执行的操作。另外...我被IE6卡住了...但是如果您知道涉及另一个浏览器的方法,我仍然对您的回答非常感兴趣。

(一旦我在本地拥有日志文件,提取数据就不是问题了)