问题标签 [screen-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3970 问题

0 投票

10 回答

80310 浏览

php - 如何在 PHP 中实现网络爬虫？

哪些内置 PHP 函数对网页抓取有用？有哪些好的资源（网络或印刷）可以加快使用 PHP 进行网络抓取？

php screen-scraping

levercc

2008-08-25T21:28:32.137

0 投票

5 回答

67110 浏览

java - 如何在 Java 中获取 HTML

在不使用任何外部库的情况下，将网站的 HTML 内容提取到字符串中的最简单方法是什么？

pek

2008-08-28T01:20:18.100

0 投票

7 回答

45220 浏览

php - PHP 中的 HTML 抓取

我一直在使用正则表达式在 PHP 中进行一些 HTML 抓取。这行得通，但结果是挑剔和脆弱的。有没有人使用过任何提供更强大解决方案的软件包？配置驱动的解决方案将是理想的，但我并不挑剔。

php html screen-scraping

tsellon

2008-08-29T07:32:15.217

0 投票

4 回答

6442 浏览

vb.net - 从网页中提取地址信息

我需要获取一个网页并从页面中提取地址信息。有些比其他更容易。我正在寻找可以帮助我完成这项工作的 Firefox 插件、Windows 应用程序或 VB.NET 代码。

理想情况下，我希望在我们的管理员（ASP.NET/VB.NET）上有一个网页，您可以在其中输入一个 URL，它会删除该页面并返回一个我可以放入网格的数据集。

vb.net screen-scraping street-address

Brian Boatright

2008-09-03T20:49:26.790

0 投票

4 回答

3589 浏览

.net - 如何在安全站点中使用 webclient？

我需要自动化一个涉及使用登录表单的网站的过程。我需要在登录页面之后的页面中捕获一些数据。

我知道如何筛选普通页面，但不知道如何筛选安全站点后面的页面。

这可以通过 .NET WebClient 类来完成吗？
- 我将如何自动登录？
- 我将如何保持登录其他页面？

.net screen-scraping

Oded

2008-09-07T07:40:20.693

0 投票

7 回答

26468 浏览

python - 用于 HTML 解析的 Python 正则表达式 (BeautifulSoup)

我想获取 HTML 中隐藏输入字段的值。

我想在 Python 中编写一个返回值的正则表达式fooId，因为我知道 HTML 中的行遵循格式

有人可以在 Python 中提供一个示例来解析 HTML 的值吗？

python regex screen-scraping

2008-09-10T21:49:53.900

0 投票

5 回答

6904 浏览

asp.net - 将 ASPX 导出为 HTML

我们正在构建一个 CMS。该站点将由用户在 aspx 页面中构建和管理，但我们希望创建一个 HTML 的静态站点。我们现在使用的方法是使用我在此处找到的代码，该代码重载了 Aspx 页面中的 Render 方法并将 HTML 字符串写入文件。这适用于单个页面，但我们的 CMS 的问题是，我们希望从一开始就自动为站点创建一些 HTML 页面，甚至在创建者编辑系统中的任何内容之前。有谁知道有什么方法可以做到这一点？

asp.net html screen-scraping

Leac

2008-09-11T11:15:54.213

0 投票

8 回答

1102 浏览

asp.net - 从登录后的页面获取 HTML

这个问题是我之前关于从 ASPX 页面获取 HTML 的问题的后续问题。我决定尝试使用 webclient 对象，但问题是我得到了登录页面的 HTML，因为需要登录。我尝试使用 webclient 对象“登录”：

但是我仍然一直得到登录页面。我知道用户名信息没有存储在 cookie 中。我一定是做错了什么或者遗漏了重要的部分。有谁知道它可能是什么？

asp.net html screen-scraping

Leac

2008-09-14T09:19:09.257

0 投票

8 回答

4140 浏览

html - 将 HTML 表保存到数据库

我正在尝试抓取一个 html 表并将其数据保存在数据库中。您发现哪些策略/解决方案有助于实现该计划。

我对 Java 和 PHP 最满意，但任何语言的解决方案都会有所帮助。

编辑：有关更多详细信息，UTA（盐湖城公交系统）在其网站上提供了公交时刻表。每个时刻表都显示在一个表格中，该表格在标题中包含车站，在行中包含出发时间。我想通过时间表并将信息以我可以查询的形式保存在表中。

这是时间表的起点

html screen-scraping

Dan Cramer

2008-09-16T14:50:50.690

0 投票

4 回答

2665 浏览

css - 如何保存包含所有媒体的公共 html 页面并保留结构

寻找可以让我抓取 HTML 模型并保持页面完整性的Linux application （或 Firefox 扩展）。

Firefox 做得几乎完美，但没有抓取 CSS 中引用的图像。

Firefox 的 Scrapbook 扩展可以获取所有内容，但会扁平化目录结构。

如果所有文件夹都成为页面的子级，我不会非常介意index。

css screen-scraping screen directory-structure

Adam

2008-09-17T03:21:33.180

1 2 3 4 5 6 7 8 9 10

问题标签 [screen-scraping]

Reference