问题标签 [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1674 浏览

api - 如何动态查找到给定 URL 的入站链接?

Technorarati 有他们的Cosmos api,它工作得相当好,但限制了您用于非商业用途,并且每天不超过 500 个查询。

Yahoo 有一个Site Explorer InLink Data API,但它从字面上定义了任务,从博客中的侧边栏小部件返回链接,而不仅仅是来自博客内容内部的链接。

是否有任何其他替代方法可以跟踪谁链接到给定 URL(想想Techmeme.com上故事下方运行的讨论链接)?还是我必须自己动手?

0 投票
3 回答
559 浏览

python - 自动上课时间表优化爬虫?

总体规划

获取我的班级信息以自动优化和选择我的大学课程时间表

整体算法

  1. 使用其 Enterprise Sign On Engine 登录名登录网站
  2. 查找我当前的学期及其相关科目(预设置)
  3. 导航到右侧页面并获取每个相关主题的数据(讲座、实践和研讨会时间)
  4. 剥离无用信息的数据
  5. 将彼此接近的班级排名较高,随机日期的班级排名较低
  6. 解决最佳时间表解决方案
  7. 给我输出一份BEST CASE信息的详细清单
  8. 向我输出可能的类信息的详细列表(例如,有些可能是完整的)
  9. 获取程序以自动选择最佳课程
  10. 继续检查,看看我们是否可以达到 7。

6 详细 获取所有课程,以讲座为重点,排名最高(每个科目只有一个),并尝试围绕该课程安排课程。

问题

任何人都可以向我提供可能与希望用 python 编写的类似内容的链接吗?关于 6.:您建议将这些信息存储在什么数据结构中?每个uniclass对象的链表在哪里?我应该将所有信息写入文本文件吗?

我正在考虑将 uniclass 设置为以下属性:

  • 学科
  • 时间
  • 类型
  • 老师

我在 Python 方面几乎没有经验,并认为这将是一个很好的学习项目,可以尝试完成。感谢您提供的任何帮助和链接,以帮助我开始,打开编辑以适当地标记或任何必要的(不知道这属于编程和 python 之外的什么?)

编辑:无法真正获得我想要的这个 SO 帖子的正确格式><

0 投票
5 回答
2286 浏览

php - 使用 PHP 和 XPath 进行屏幕抓取

有谁知道在使用 XPath 提取数据时如何维护文本格式?

我目前正在提取所有块

<div class="info"> <h5>title</h5> text <a href="somelink">anchor</a> </div>

从一个页面。问题是当我访问 nodeValue 时,我只能得到纯文本。如何捕获包括格式在内的内容,即代码中的 h5 和静止图像?

提前致谢。我在谷歌上搜索了所有可以想象的组合,但没有运气。

0 投票
5 回答
10200 浏览

java - 自动生成 HTTP 屏幕抓取 Java 代码

我需要筛选从网站上抓取一些数据,因为它不能通过他们的网络服务获得。当我以前需要这样做时,我已经使用 Apache 的 HTTP 客户端库自己编写了 Java 代码,以进行相关的 HTTP 调用来下载数据。在使用Charles Web 代理记录相应的 HTTP 调用时,我通过在浏览器中单击相关屏幕来找出我需要进行的相关调用。

正如您可以想象的那样,这是一个相当乏味的过程,我想知道是否有一个工具可以实际生成与浏览器会话相对应的 Java 代码。我希望生成的代码不会像手动编写的代码那样漂亮,但我总是可以在之后整理它。有谁知道这样的工具是否存在?Selenium 是我知道的一种可能性,但我不确定它是否支持这个确切的用例。

谢谢,唐

0 投票
6 回答
1911 浏览

json - 提供 API 是否有助于阻止屏幕抓取?

最近我在这里一直在思考屏幕抓取以及它可能是一项什么样的任务。所以我提出以下问题。

作为站点开发人员,您是否会公开简单的 API 以防止用户抓取屏幕,例如 JSON 结果?

然后,这些结果可以实现缓存,并且它们的流量比可能下载的大量标记要小得多。

我不是在看预防,而是在阻止刮擦。


抓取带宽样本
((users * (% / 100)) * ((freq * 60) * 24)) * 文件大小

  • 用户:200,000
  • 使用实用程序的用户百分比:5
  • 文件大小:1kb
  • 频率:1分钟

公式:

((用户 * (% / 100)) * ((freq * 60) * 24)) * 文件大小

10,000 * 1440 * 1

14400000kb 或 13.73291015625gb

假设您的 JSON 结果是 200 字节,即现在 (10,000 * 1440 * 0.2) 或每天 2.74658203125gb。

这相当于每天大约 11GB 的流量变化。


我的 Stack Overflow 配置文件是 96k 以供参考。


这个问题的原因提示要求从用户配置文件中获取 JSON 结果:
http ://stackoverflow.uservoice.com/pages/general/suggestions/101342-add-json-for-user-information

我想了解其他开发人员是否会公开此类 API,以及是否值得您花时间提供这些 API 以减少带宽。

0 投票
1 回答
7892 浏览

python - BeautifulSoup 3.1.0.1 和 Python 2.5.2 的 UnicodeEncodeError

使用 BeautifulSoup 3.1.0.1 和 Python 2.5.2,并尝试解析法语网页。但是,一旦我调用 findAll,我就会收到以下错误:

UnicodeEncodeError:“ascii”编解码器无法在位置 1146 编码字符 u'\xe9':序数不在范围内(128)

以下是我目前正在运行的代码:

有人知道为什么吗?

谢谢!

更新:根据要求,以下是完整的追溯

0 投票
2 回答
5021 浏览

c# - 编写一个扫描电子商务网站并从中提取产品图片+价格+描述的C#程序

我正在开发一个电子商务搜索引擎,允许您在许多电子商务网站中搜索产品。

我该如何处理这件事?

我需要一个能够扫描网站、解析其 HTML 并确定网站中哪些图像是产品图像、哪些是产品描述、哪些是产品价格的应用程序。

很高兴听到任何想法,例如。

提前致谢。

编辑:我的问题不是如何从网站获取 HTML(这称为屏幕抓取),而是更多关于如何解析该信息并了解哪些 html 包含我正在寻找的实际数据,哪些不是。

0 投票
6 回答
9225 浏览

php - 使用 php 的屏幕抓取技术

如何筛选特定网站。我需要登录一个网站,然后抓取内部信息。怎么可能做到这一点?

请指导我。

重复:如何在 PHP 中实现网络爬虫?

0 投票
5 回答
3704 浏览

php - 如何在 PHP 中实现屏幕刮板?

我有一个用户 ID 和密码,可以通过我的程序登录网站。登录后,URL 将从http://localhost/Test/loginpage.html更改为http://www.4wtech.com/csp/web/Employee/Login.csp

如何使用 PHP 从第二个 URL 中“筛选”数据?

0 投票
4 回答
4068 浏览

php - 抓取并生成 RSS 提要

我使用Simple HTML DOM来抓取一个页面以获取最新消息,然后使用这个PHP 类生成一个 RSS 提要。

这就是我现在所拥有的:

我怎样才能使这段代码更简单?知道有两个 foreach 语句,我该如何组合它们?

因为抓取的新闻是挪威语,所以我需要在标题上应用 html_entity_decode()。我在这里尝试过,但我无法让它工作:

谢谢 :)