问题标签 [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3999 浏览

xml - 如何在 R 中从抓取的网页中隔离单个元素

我想用 R 来抓取这个页面:(http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html)和其他人,以获得进球者和时间。

到目前为止,这就是我所拥有的:

并且 pagetree 对象现在包含一个指向我解析的 html 的指针(我认为)。我想要的部分是:

但我现在不知道如何隔离它们,坦率地说xpathSApplyxpathApply让我迷惑不解!

那么,有谁知道如何制定一个命令来吸出<div class="cont">标签中包含的元素?

0 投票
3 回答
685 浏览

c# - 从 .NET 和 C# 中的网站提取数据的问题

我编写了一个网页抓取程序来访问页面列表并将所有 html 写入文件。问题是,当我拉出一段文本时,一些字符会写成“�”。如何将这些字符拉到我的文本文件中?这是我的代码:

0 投票
3 回答
636 浏览

python - 使用 Python 模拟浏览器资源扩展行为

我正在寻找一种模拟浏览器资源扩展行为的方法。

我试图解决的流程如下:

  • 访问初始 URL(例如http://example.dmn/index.htm
  • 解析收到的 html 响应(例如 index.htm)
  • 查找浏览器将作为索引解析的结果获取的资源,例如:
    • 图片
    • 闪光
    • 嵌入式视频/音频
    • 框架/iFrames
  • 为找到的每个新资源递归地重复该过程

我不希望跟随链接(href),只有在第一次访问页面时浏览器会自动获取的页面资源。

你对如何进行这个模拟有什么建议吗?

是否有任何 Python 项目/库可以提供帮助?

谢谢

0 投票
2 回答
364 浏览

javascript - 从asp页面获取数据

我想知道是否有任何方法可以获取从 ASP 页面生成的 html。我试图从页面中拉出一个表格,并且我愚蠢地使用了一个静态 html 页面,因此我不必在测试我的代码时不断地查询该页面所在的服务器。我编写的用于从页面抓取未标记表格的 javascript 代码有效。然后当我用真实页面进行实践时,发现ASP页面并没有在URL上生成带有jquery .get请求的可查看页面。

有什么方法可以查询我需要的表的页面,以便 ASP 页面根据请求返回有效页面?

(我也仅限于使用 javascript 和 perl,这将驻留的服务器不会运行 php,我不想通过添加专有软件的问题来学习 ASP.NET 来解决这个问题)

0 投票
1 回答
557 浏览

java - 从 HttpClient for Android 获取 Web 结果

例如:假设我在沃尔玛主页上搜索了一些东西。像这样。我将如何从列出的第一个产品中检索信息。产品名称、价格、详细信息、评级、型号等信息。我将如何在框中搜索。在我看来,唯一的方法是替换http://www.walmart.com/search/search-ng.do?search_constraint=0&ic=48_0&search_query= someProduct &Find.x=0&Find.y=0&Find=Find。然后用 seach 替换 someProduct 并在 HttpClient 中调用它。

0 投票
1 回答
376 浏览

php - 如何使用 PHP 从 LocService (http://www.trackdroid.org/locservice.html) 抓取数据

我希望从LocService(一种从 Android 手机跟踪 GPS ping 的解决方案)中抓取地理位置数据,并将其作为 PHP cron 作业托管在 MySQL 数据库中。登录系统使用 HTTPS。我无法通过 cURL 返回任何内容。

有没有人有任何想法?

高西

0 投票
4 回答
170 浏览

python - 检索大量 url 地址

编辑:只是为了澄清我正在使用 python,并希望在 python 中执行此操作。

我正在为我们大学的一个研究项目收集数据。基本上我需要从监控欧洲议会的网站上抓取大量信息。以下是一个网站的 url 外观示例:

http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-0190&language=EN

地址参考部分后面的数字是指:A7 = 正在开会的议会(以前的议会是 A6 等),2010 = 年份,0190 = 文件编号。

我想要做的是创建一个变量,其中包含不同议会的所有 url,所以我可以循环这个变量并从网站上抓取信息。

PS:我试过这个:

但这给了我以下错误: Traceback(最近一次调用最后一次):文件“”,第 7 行,在 IndexError:列表索引超出范围

0 投票
1 回答
2863 浏览

python - 使用 BeautifulSoup 清理和删除标签

到目前为止,我有以下脚本:

它运行完美,并产生以下“项目”:

但是,我想拿东西并清理它以获得

如何在 BeautifulSoup 和 Python 中删除这些标签?

一如既往,谢谢!

0 投票
2 回答
2364 浏览

python - 逃避……用 BeautifulSoup

我目前正在使用 BeautifulSoup 来抓取一些网站,但是我对某些特定字符有疑问,UnicodeDammit 中的代码似乎(再次)表明这是一些微软发明的。

我正在使用最新版本的 BeautifulSoup(3.0.8.1),因为我仍在使用 python2.5

以下代码说明了我的问题:

如您所见,问题在于末尾的 '...'(&hellip) 字符(您的浏览器可能正确转义了该字符)。显然这不是我感兴趣的。

有这个字符的 unicode 表示或其他东西会很好。即使只是简单地忽略它也会解决我的特殊问题。

我怎么能用 BeautifulSoup 做到这一点?

0 投票
3 回答
619 浏览

python - 使用 BeautifulSoup 抓取数据的问题

我编写了以下试用代码,以从欧洲议会中检索立法法案的标题。

但是,每当我运行它时,我都会收到以下错误:

我已将其范围缩小到 BeautifulSoup 无法读取循环中的第四个文档。谁能向我解释我做错了什么?

亲切的问候

托马斯