问题标签 [screen-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 抓取动态网站
抓取大部分内容由看似 ajax 请求生成的动态网站的最佳方法是什么?我以前有过使用 Mechanize、BeautifulSoup 和 python 组合的经验,但我准备尝试一些新的东西。
--编辑--有关更多详细信息:我正在尝试抓取 CNN主数据库。那里有丰富的信息,但似乎没有api。
python - 使用python从HTML页面源下载图像文件?
我正在编写一个从 HTML 页面下载所有图像文件并将它们保存到特定文件夹的刮板。所有图像都是 HTML 页面的一部分。
screen-scraping - 如何将 HTML 表格抓取到 CSV?
问题
我在工作中使用了一个工具,它可以让我进行查询并取回 HTML 信息表。我没有任何形式的后端访问它。
如果我可以将这些信息放入电子表格中进行排序、平均等,那么这些信息会更加有用。如何将这些数据截屏到 CSV 文件中?
我的第一个想法
因为我知道 jQuery,我想我可以用它来去除屏幕上的表格格式,插入逗号和换行符,然后将整个混乱复制到记事本中并保存为 CSV。有更好的想法吗?
解决方案
是的,伙计们,这真的就像复制和粘贴一样简单。我不觉得很傻吗。
具体来说,当我粘贴到电子表格中时,我必须选择“选择性粘贴”并选择“文本”格式。否则,即使我突出显示了整个电子表格,它也会尝试将所有内容粘贴到单个单元格中。
php - PHP CSS 选择器库?
是否有允许我使用 CSS 选择器查询 XHTML 文档的 PHP 类/库?如果我能以某种方式使用 CSS 选择器(jQuery 宠坏了我!),我需要抓取一些非常容易访问的数据页面。有任何想法吗?
python - 如何扫描网页并获取图像和 youtube 嵌入?
我正在构建一个网络应用程序,我需要在其中获取所有图像和任何嵌入在给定 URL 上的 Flash 视频(例如 youtube)。我正在使用 Python。
我用谷歌搜索过,但没有找到任何关于这个的好信息(可能是因为我不知道这被称为搜索什么),有没有人有这方面的经验并且知道如何做到这一点?
如果有可用的代码示例,我很乐意看到一些代码示例。
谢谢!
html - 从 HTML 文档中抓取最大的文本块
我正在研究一种算法,该算法将在给定 HTML 文件的情况下尝试挑选出它认为最有可能包含页面大部分内容文本的父元素。例如,它将选择以下 HTML 中的 div“内容”:
我想出了一些想法,比如遍历 HTML 文档树到它的叶子,将文本的长度相加,并且只有在父级给我们的内容比子级多的情况下才能查看父级的其他文本。
有没有人尝试过这样的事情,或者知道可以应用的算法?它不必是可靠的,但只要它能够猜出包含大部分页面内容文本的容器(例如,对于文章或博客文章),那就太棒了。
php - 无法从本地主机通过 cURL 访问网站,但可以从托管服务器访问网站
我正在编写一个使用 PHP 5 和 cURL 从 wowarmory.com 提取 XML 数据的脚本:
当我从我的托管 Web 服务器运行它时,我得到了预期的 XML 响应。但是从我的本地主机网络服务器运行时,我什么也得不到。
我可以通过 cURL 从 localhost(yahoo.com,甚至 worldofwarcraft.com)获取任何其他网站,但不能获取 wowarmory.com。所以我知道 cURL 运行正常。
我正在使用以下版本的 PHP 和 cURL:
托管服务器:
- php 5.2.6
- cURL libcurl/7.16.1 OpenSSL/0.9.7e zlib/1.2.3
本地主机:
- php 5.2.6
- cURL libcurl/7.16.0 OpenSSL/0.9.8i zlib/1.2.3
有任何想法吗?
编辑:本地主机正在运行 Windows XP SP3。我可以通过网络浏览器访问 wowarmory.com。Tracert 在第 13 跳开始超时(显然是从我的位置开始):
不幸的是,我不熟悉 tcptraceroute。
curl 的 Windows 二进制版本不会为 http://www.wowarmory.com/ 返回任何内容,但会为http://www.yahoo.com/返回任何内容
我没有 wget 可用。
编辑2:我可以访问我的本地化网站就好了。这只是我没有收到 curl 的回复。我正在运行一个几乎默认的 XAMPP 安装(windows xp 上的 apache 2)。所有这一切都很好。
html - 使用 CSS 进行布局和格式化的屏幕抓取页面...如何抓取适用于 html 的 CSS?
我正在开发一个应用程序,用于对外部网页的一小部分(不是整个页面,只是其中的一小部分)进行屏幕抓取。
所以我的代码可以完美地抓取 html,但我的问题是我不仅想抓取原始 html,还想抓取用于格式化我正在提取的页面部分的 CSS 样式,所以我可以显示在新页面的原始格式完好无损。
如果您熟悉 firebug,它能够显示哪些 CSS 样式适用于您突出显示的页面的特定子集,所以如果我能找到一种方法来做到这一点,那么我可以在显示时使用这些样式我的新页面上的内容。但我不知道如何做到这一点............
html - c# XML操作VB代码转换查询...等等!
我正在按照 VB 教程使用 LINQ 进行一些 HTML 操作
它具有以下构造
我如何在 C# 中做同样的事情?
似乎有一个叫做 XMLNamespaceManager 的东西可以保存解决方案,但我太愚蠢了,无法理解如何使用它,而且我不确定它是否是正确的树。
有什么建议吗?