“screen-scraping”的相关标签问题

0 投票

2 回答

1674 浏览

api - 如何动态查找到给定 URL 的入站链接？

Technorarati 有他们的Cosmos api，它工作得相当好，但限制了您用于非商业用途，并且每天不超过 500 个查询。

Yahoo 有一个Site Explorer InLink Data API，但它从字面上定义了任务，从博客中的侧边栏小部件返回链接，而不仅仅是来自博客内容内部的链接。

是否有任何其他替代方法可以跟踪谁链接到给定 URL（想想Techmeme.com上故事下方运行的讨论链接）？还是我必须自己动手？

bflora

2009-01-03T11:40:22.417

0 投票

3 回答

559 浏览

python - 自动上课时间表优化爬虫？

总体规划

获取我的班级信息以自动优化和选择我的大学课程时间表

整体算法

使用其 Enterprise Sign On Engine 登录名登录网站
查找我当前的学期及其相关科目（预设置）
导航到右侧页面并获取每个相关主题的数据（讲座、实践和研讨会时间）
剥离无用信息的数据
将彼此接近的班级排名较高，随机日期的班级排名较低
解决最佳时间表解决方案
给我输出一份BEST CASE信息的详细清单
向我输出可能的类信息的详细列表（例如，有些可能是完整的）
获取程序以自动选择最佳课程
继续检查，看看我们是否可以达到 7。

6 详细获取所有课程，以讲座为重点，排名最高（每个科目只有一个），并尝试围绕该课程安排课程。

问题

任何人都可以向我提供可能与希望用 python 编写的类似内容的链接吗？关于 6.：您建议将这些信息存储在什么数据结构中？每个uniclass对象的链表在哪里？我应该将所有信息写入文本文件吗？

我正在考虑将 uniclass 设置为以下属性：

学科
秩
时间
类型
老师

我在 Python 方面几乎没有经验，并认为这将是一个很好的学习项目，可以尝试完成。感谢您提供的任何帮助和链接，以帮助我开始，打开编辑以适当地标记或任何必要的（不知道这属于编程和 python 之外的什么？）

编辑：无法真正获得我想要的这个 SO 帖子的正确格式><

python screen-scraping scheduling

dekz

2009-01-07T09:24:20.673

0 投票

5 回答

2286 浏览

php - 使用 PHP 和 XPath 进行屏幕抓取

有谁知道在使用 XPath 提取数据时如何维护文本格式？

我目前正在提取所有块

<div class="info"> <h5>title</h5> text <a href="somelink">anchor</a> </div>

从一个页面。问题是当我访问 nodeValue 时，我只能得到纯文本。如何捕获包括格式在内的内容，即代码中的 h5 和静止图像？

提前致谢。我在谷歌上搜索了所有可以想象的组合，但没有运气。

php xpath screen-scraping

user137621

2009-01-07T13:31:48.537

0 投票

5 回答

10200 浏览

java - 自动生成 HTTP 屏幕抓取 Java 代码

我需要筛选从网站上抓取一些数据，因为它不能通过他们的网络服务获得。当我以前需要这样做时，我已经使用 Apache 的 HTTP 客户端库自己编写了 Java 代码，以进行相关的 HTTP 调用来下载数据。在使用Charles Web 代理记录相应的 HTTP 调用时，我通过在浏览器中单击相关屏幕来找出我需要进行的相关调用。

正如您可以想象的那样，这是一个相当乏味的过程，我想知道是否有一个工具可以实际生成与浏览器会话相对应的 Java 代码。我希望生成的代码不会像手动编写的代码那样漂亮，但我总是可以在之后整理它。有谁知道这样的工具是否存在？Selenium 是我知道的一种可能性，但我不确定它是否支持这个确切的用例。

谢谢，唐

java http selenium screen-scraping

Don

2009-01-08T01:37:15.610

0 投票

6 回答

1911 浏览

json - 提供 API 是否有助于阻止屏幕抓取？

最近我在这里一直在思考屏幕抓取以及它可能是一项什么样的任务。所以我提出以下问题。

作为站点开发人员，您是否会公开简单的 API 以防止用户抓取屏幕，例如 JSON 结果？

然后，这些结果可以实现缓存，并且它们的流量比可能下载的大量标记要小得多。

我不是在看预防，而是在阻止刮擦。

抓取带宽样本
((users * (% / 100)) * ((freq * 60) * 24)) * 文件大小

用户：200,000
使用实用程序的用户百分比：5
文件大小：1kb
频率：1分钟

公式：

((用户 * (% / 100)) * ((freq * 60) * 24)) * 文件大小

10,000 * 1440 * 1

14400000kb 或 13.73291015625gb

假设您的 JSON 结果是 200 字节，即现在 (10,000 * 1440 * 0.2) 或每天 2.74658203125gb。

这相当于每天大约 11GB 的流量变化。

我的 Stack Overflow 配置文件是 96k 以供参考。

这个问题的原因提示要求从用户配置文件中获取 JSON 结果：
http ://stackoverflow.uservoice.com/pages/general/suggestions/101342-add-json-for-user-information

我想了解其他开发人员是否会公开此类 API，以及是否值得您花时间提供这些 API 以减少带宽。

json language-agnostic api screen-scraping

Tom Anderson

2009-01-10T17:16:08.170

0 投票

1 回答

7892 浏览

python - BeautifulSoup 3.1.0.1 和 Python 2.5.2 的 UnicodeEncodeError

使用 BeautifulSoup 3.1.0.1 和 Python 2.5.2，并尝试解析法语网页。但是，一旦我调用 findAll，我就会收到以下错误：

UnicodeEncodeError：“ascii”编解码器无法在位置 1146 编码字符 u'\xe9'：序数不在范围内（128）

以下是我目前正在运行的代码：

有人知道为什么吗？

谢谢！

更新：根据要求，以下是完整的追溯

python encoding screen-scraping beautifulsoup

2009-01-20T21:33:25.280

0 投票

2 回答

5021 浏览

c# - 编写一个扫描电子商务网站并从中提取产品图片+价格+描述的C#程序

我正在开发一个电子商务搜索引擎，允许您在许多电子商务网站中搜索产品。

我该如何处理这件事？

我需要一个能够扫描网站、解析其 HTML 并确定网站中哪些图像是产品图像、哪些是产品描述、哪些是产品价格的应用程序。

很高兴听到任何想法，例如。

提前致谢。

编辑：我的问题不是如何从网站获取 HTML（这称为屏幕抓取），而是更多关于如何解析该信息并了解哪些 html 包含我正在寻找的实际数据，哪些不是。

c#screen-scraping

Eytan Levit

2009-02-06T07:06:30.870

0 投票

6 回答

9225 浏览

php - 使用 php 的屏幕抓取技术

如何筛选特定网站。我需要登录一个网站，然后抓取内部信息。怎么可能做到这一点？

请指导我。

重复：如何在 PHP 中实现网络爬虫？

php screen-scraping

praveenjayapal

2009-02-06T11:12:27.847

0 投票

5 回答

3704 浏览

php - 如何在 PHP 中实现屏幕刮板？

我有一个用户 ID 和密码，可以通过我的程序登录网站。登录后，URL 将从http://localhost/Test/loginpage.html更改为http://www.4wtech.com/csp/web/Employee/Login.csp。

如何使用 PHP 从第二个 URL 中“筛选”数据？

php javascript screen-scraping

Sakthivel

2009-02-10T13:49:57.380

0 投票

4 回答

4068 浏览

php - 抓取并生成 RSS 提要

我使用Simple HTML DOM来抓取一个页面以获取最新消息，然后使用这个PHP 类生成一个 RSS 提要。

这就是我现在所拥有的：

我怎样才能使这段代码更简单？知道有两个 foreach 语句，我该如何组合它们？

因为抓取的新闻是挪威语，所以我需要在标题上应用 html_entity_decode()。我在这里尝试过，但我无法让它工作：

谢谢：）

php foreach rss screen-scraping

mofle

2009-02-17T16:19:08.043

问题标签 [screen-scraping]

Reference