问题标签 [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
648 浏览

python - 如何从 HTML 文件中提取所需的数据?

这是我拥有的 HTML:

这是我的 Python 代码,使用 Beautiful Soup:

head_list我从 HTML 中得到了正确的,但detail_list它不起作用。

我想要这样的东西

任何帮助都是不言而喻的。提前致谢。

0 投票
4 回答
1543 浏览

shell - 我想抓取 iTunes 顶部 X RSS 提要并插入 dB

最好我想用一些 bash shell 脚本来做,也许是一些 PHP 或 PERL 和一个 MySQL 数据库。想法?

0 投票
2 回答
6939 浏览

asp.net - Count number of results for a particular word on Twitter

To further a personal project of mine, I have been pondering how to count the number of results for a user specified word on Twitter. I have used their API extensively, but have not been able to come up with an efficient or even halfway practical way to count the occurrences of a particular word. The actual results are not critical, just the overall count. I'll keep scratching my head. Any ideas or direction pointing would be most appreciated.

e.g. http://search.twitter.com/search?q=tomatoes

0 投票
6 回答
4148 浏览

html - 我应该使用什么语言/工具进行 HTML 解析?

我有几个网站,我想从以前的经验中提取数据,这并不像听起来那么容易。为什么?仅仅是因为我必须解析的 HTML 页面格式不正确(缺少结束标记等)。

考虑到我对我可以使用的技术、语言或工具没有任何限制,您对轻松解析和提取 HTML 页面中的数据有什么建议?我尝试过 HTML Agility Pack、BeautifulSoup,甚至这些工具都不是完美的(HTML Agility Pack 有问题,BeautifulSoup 解析引擎不适用于我传递给它的页面)。

0 投票
4 回答
71192 浏览

php - 抓取网页内容

我正在开发一个项目,我想在后台抓取网站的内容并从该抓取的网站中获取一些有限的内容。例如,在我的页面中,我有“userid”和“password”字段,通过使用这些字段,我将访问我的邮件并抓取我的收件箱内容并将其显示在我的页面中。

我单独使用javascript完成了上述操作。但是当我单击登录按钮时,我的页面的 URL ( http://localhost/web/Login.html ) 更改为 URL ( http://mail.in.com/mails/inbox.php?nomail= ... .) 我被刮了。但是我在不更改网址的情况下取消了详细信息。

0 投票
2 回答
3209 浏览

ruby - 使用 www::mechanize 时的 Iconv::IllegalSequence

我正在尝试做一些网络抓取,但 WWW:Mechanize gem 似乎不喜欢编码和崩溃。
发布请求导致 302 重定向(随后是机械化,到目前为止一切都很好),结果页面似乎崩溃了。我用谷歌搜索了很多,但到目前为止还没有出现如何解决这个问题。大家有什么想法吗?

代码:

错误:

0 投票
6 回答
3347 浏览

security - 如何在不阻止行为良好的机器人的情况下阻止 Web 抓取?

我正在建立一个包含大型产品数据库的电子商务网站。当然,当 Goggle 索引网站的所有产品时也很好。但是,如果某个竞争对手想要Web 抓取网站并获取所有图像和产品描述怎么办?

我正在观察一些具有类似产品列表的网站,它们放置了验证码,因此“只有人类”才能阅读产品列表。缺点是……它对 Google、Yahoo 或其他“行为良好”的机器人是不可见的。

0 投票
9 回答
10372 浏览

html - 超快速的屏幕抓取技术?

我经常发现自己需要为内部目的进行一些简单的屏幕抓取(即我使用的第三方服务仅通过 HTML 发布报告)。我现在至少有两三个案例。我可以使用 apache httpclient 并创建所有必要的屏幕抓取代码,但这需要一段时间。这是我通常的过程:

  1. 在网站上打开 Charles Proxy,看看发生了什么。
  2. 开始使用Apache HttpClient写一些java代码,处理cookies,多个请求
  3. 使用 Jericho HTML 来处理 HTML 的解析。

我希望我可以快速“记录我的会话”,然后参数化因会话而异的内容。想象一下,只是使用 Charles 来获取所有请求 HTTP,然后参数化相关的查询字符串或发布参数。瞧,我有一个可重用的 http 脚本。

有什么可以做到这一点的吗?我记得当我曾经在一家大公司工作时,曾经使用过 Mercury Interactive 的一个名为 Load Runner 的工具,它本质上是一种很好的方法来记录 http 会话并使其可重用(用于测试目的)。不幸的是,该工具非常昂贵。

0 投票
2 回答
1361 浏览

python - 使用 selectorgadget.com 解析 HTML 文件

我如何使用漂亮的汤和选择器小工具来抓取网站。例如,我有一个网站 - (一个新蛋产品),我希望我的脚本返回该产品的所有规格(点击规格),我的意思是 - 英特尔、台式机、......、2.4GHz , 1066Mhz, ...... , 3 年有限。

使用 selectorgadget 后,我​​得到了字符串- .desc

我该如何使用它?

谢谢 :)

0 投票
15 回答
1434 浏览

security - 如何保护我网页上某些数据的抓取?

我只想保护每次请求后显示的某些数字。这样的数字大约有30个。我本来打算生成图像来代替这些数字,但是如果图像没有像验证码那样扭曲,脚本就不能破译这些数字吗?此外,加载图像对文本的性能影响有多大?