问题标签 [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
10 回答
80310 浏览

php - 如何在 PHP 中实现网络爬虫?

哪些内置 PHP 函数对网页抓取有用?有哪些好的资源(网络或印刷)可以加快使用 PHP 进行网络抓取?

0 投票
5 回答
67110 浏览

java - 如何在 Java 中获取 HTML

在不使用任何外部库的情况下,将网站的 HTML 内容提取到字符串中的最简单方法是什么?

0 投票
7 回答
45220 浏览

php - PHP 中的 HTML 抓取

我一直在使用正则表达式在 PHP 中进行一些 HTML 抓取。这行得通,但结果是挑剔和脆弱的。有没有人使用过任何提供更强大解决方案的软件包?配置驱动的解决方案将是理想的,但我并不挑剔。

0 投票
4 回答
6442 浏览

vb.net - 从网页中提取地址信息

我需要获取一个网页并从页面中提取地址信息。有些比其他更容易。我正在寻找可以帮助我完成这项工作的 Firefox 插件、Windows 应用程序或 VB.NET 代码。

理想情况下,我希望在我们的管理员(ASP.NET/VB.NET)上有一个网页,您可以在其中输入一个 URL,它会删除该页面并返回一个我可以放入网格的数据集。

0 投票
4 回答
3589 浏览

.net - 如何在安全站点中使用 webclient?

我需要自动化一个涉及使用登录表单的网站的过程。我需要在登录页面之后的页面中捕获一些数据。

我知道如何筛选普通页面,但不知道如何筛选安全站点后面的页面。

  1. 这可以通过 .NET WebClient 类来完成吗?
    • 我将如何自动登录?
    • 我将如何保持登录其他页面?
0 投票
7 回答
26468 浏览

python - 用于 HTML 解析的 Python 正则表达式 (BeautifulSoup)

我想获取 HTML 中隐藏输入字段的值。

我想在 Python 中编写一个返回值的正则表达式fooId,因为我知道 HTML 中的行遵循格式

有人可以在 Python 中提供一个示例来解析 HTML 的值吗?

0 投票
5 回答
6904 浏览

asp.net - 将 ASPX 导出为 HTML

我们正在构建一个 CMS。该站点将由用户在 aspx 页面中构建和管理,但我们希望创建一个 HTML 的静态站点。我们现在使用的方法是使用我在此处找到的代码,该代码重载了 Aspx 页面中的 Render 方法并将 HTML 字符串写入文件。这适用于单个页面,但我们的 CMS 的问题是,我们希望从一开始就自动为站点创建一些 HTML 页面,甚至在创建者编辑系统中的任何内容之前。有谁知道有什么方法可以做到这一点?

0 投票
8 回答
1102 浏览

asp.net - 从登录后的页面获取 HTML

这个问题是我之前关于从 ASPX 页面获取 HTML 的问题的后续问题。我决定尝试使用 webclient 对象,但问题是我得到了登录页面的 HTML,因为需要登录。我尝试使用 webclient 对象“登录”:

但是我仍然一直得到登录页面。我知道用户名信息没有存储在 cookie 中。我一定是做错了什么或者遗漏了重要的部分。有谁知道它可能是什么?

0 投票
8 回答
4140 浏览

html - 将 HTML 表保存到数据库

我正在尝试抓取一个 html 表并将其数据保存在数据库中。您发现哪些策略/解决方案有助于实现该计划。

我对 Java 和 PHP 最满意,但任何语言的解决方案都会有所帮助。

编辑:有关更多详细信息,UTA(盐湖城公交系统)在其网站上提供了公交时刻表。每个时刻表都显示在一个表格中,该表格在标题中包含车站,在行中包含出发时间。我想通过时间表并将信息以我可以查询的形式保存在表中。

这是时间表的起点

0 投票
4 回答
2665 浏览

css - 如何保存包含所有媒体的公共 html 页面并保留结构

寻找可以让我抓取 HTML 模型并保持页面完整性的Linux application (或 Firefox 扩展) 。

Firefox 做得几乎完美,但没有抓取 CSS 中引用的图像。

Firefox 的 Scrapbook 扩展可以获取所有内容,但会扁平化目录结构。

如果所有文件夹都成为页面的子级,我不会非常介意index