问题标签 [web-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41702 问题

0 投票

1 回答

3999 浏览

xml - 如何在 R 中从抓取的网页中隔离单个元素

我想用 R 来抓取这个页面：（http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html）和其他人，以获得进球者和时间。

到目前为止，这就是我所拥有的：

并且 pagetree 对象现在包含一个指向我解析的 html 的指针（我认为）。我想要的部分是：

但我现在不知道如何隔离它们，坦率地说xpathSApply，xpathApply让我迷惑不解！

那么，有谁知道如何制定一个命令来吸出<div class="cont">标签中包含的元素？

xml r web-scraping rcurl

2010-06-08T15:14:21.670

0 投票

3 回答

685 浏览

c# - 从 .NET 和 C# 中的网站提取数据的问题

我编写了一个网页抓取程序来访问页面列表并将所有 html 写入文件。问题是，当我拉出一段文本时，一些字符会写成“�”。如何将这些字符拉到我的文本文件中？这是我的代码：

c#asp.net httpwebresponse streamreader web-scraping

2010-06-14T20:13:24.333

0 投票

3 回答

636 浏览

python - 使用 Python 模拟浏览器资源扩展行为

我正在寻找一种模拟浏览器资源扩展行为的方法。

我试图解决的流程如下：

访问初始 URL（例如http://example.dmn/index.htm）
解析收到的 html 响应（例如 index.htm）
查找浏览器将作为索引解析的结果获取的资源，例如：
- 图片
- 闪光
- 嵌入式视频/音频
- 框架/iFrames
为找到的每个新资源递归地重复该过程

我不希望跟随链接（href），只有在第一次访问页面时浏览器会自动获取的页面资源。

你对如何进行这个模拟有什么建议吗？

是否有任何 Python 项目/库可以提供帮助？

谢谢

python html http scrapy web-scraping

2010-06-15T09:34:27.283

0 投票

2 回答

364 浏览

javascript - 从asp页面获取数据

我想知道是否有任何方法可以获取从 ASP 页面生成的 html。我试图从页面中拉出一个表格，并且我愚蠢地使用了一个静态 html 页面，因此我不必在测试我的代码时不断地查询该页面所在的服务器。我编写的用于从页面抓取未标记表格的 javascript 代码有效。然后当我用真实页面进行实践时，发现ASP页面并没有在URL上生成带有jquery .get请求的可查看页面。

有什么方法可以查询我需要的表的页面，以便 ASP 页面根据请求返回有效页面？

（我也仅限于使用 javascript 和 perl，这将驻留的服务器不会运行 php，我不想通过添加专有软件的问题来学习 ASP.NET 来解决这个问题）

javascript html perl web-scraping

2010-06-17T14:08:14.250

0 投票

1 回答

557 浏览

java - 从 HttpClient for Android 获取 Web 结果

例如：假设我在沃尔玛主页上搜索了一些东西。像这样。我将如何从列出的第一个产品中检索信息。产品名称、价格、详细信息、评级、型号等信息。我将如何在框中搜索。在我看来，唯一的方法是替换http://www.walmart.com/search/search-ng.do?search_constraint=0&ic=48_0&search_query= someProduct &Find.x=0&Find.y=0&Find=Find。然后用 seach 替换 someProduct 并在 HttpClient 中调用它。

java android httpclient web-scraping

2010-06-19T10:43:02.353

0 投票

1 回答

376 浏览

php - 如何使用 PHP 从 LocService (http://www.trackdroid.org/locservice.html) 抓取数据

我希望从LocService（一种从 Android 手机跟踪 GPS ping 的解决方案）中抓取地理位置数据，并将其作为 PHP cron 作业托管在 MySQL 数据库中。登录系统使用 HTTPS。我无法通过 cURL 返回任何内容。

有没有人有任何想法？

高西

php android curl web-scraping

2010-06-28T13:01:07.420

0 投票

4 回答

170 浏览

python - 检索大量 url 地址

编辑：只是为了澄清我正在使用 python，并希望在 python 中执行此操作。

我正在为我们大学的一个研究项目收集数据。基本上我需要从监控欧洲议会的网站上抓取大量信息。以下是一个网站的 url 外观示例：

http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-0190&language=EN

地址参考部分后面的数字是指：A7 = 正在开会的议会（以前的议会是 A6 等），2010 = 年份，0190 = 文件编号。

我想要做的是创建一个变量，其中包含不同议会的所有 url，所以我可以循环这个变量并从网站上抓取信息。

PS：我试过这个：

但这给了我以下错误： Traceback（最近一次调用最后一次）：文件“”，第 7 行，在 IndexError：列表索引超出范围

python screen-scraping web-scraping

2010-06-30T15:14:18.470

0 投票

1 回答

2863 浏览

python - 使用 BeautifulSoup 清理和删除标签

到目前为止，我有以下脚本：

它运行完美，并产生以下“项目”：

但是，我想拿东西并清理它以获得

如何在 BeautifulSoup 和 Python 中删除这些标签？

一如既往，谢谢！

python extract beautifulsoup web-scraping

2010-06-30T22:28:40.443

0 投票

2 回答

2364 浏览

python - 逃避……用 BeautifulSoup

我目前正在使用 BeautifulSoup 来抓取一些网站，但是我对某些特定字符有疑问，UnicodeDammit 中的代码似乎（再次）表明这是一些微软发明的。

我正在使用最新版本的 BeautifulSoup(3.0.8.1)，因为我仍在使用 python2.5

以下代码说明了我的问题：

如您所见，问题在于末尾的 '...'(&hellip) 字符（您的浏览器可能正确转义了该字符）。显然这不是我感兴趣的。

有这个字符的 unicode 表示或其他东西会很好。即使只是简单地忽略它也会解决我的特殊问题。

我怎么能用 BeautifulSoup 做到这一点？

python escaping beautifulsoup web-scraping

2010-07-01T07:02:44.083

0 投票

3 回答

619 浏览

python - 使用 BeautifulSoup 抓取数据的问题

我编写了以下试用代码，以从欧洲议会中检索立法法案的标题。

但是，每当我运行它时，我都会收到以下错误：

我已将其范围缩小到 BeautifulSoup 无法读取循环中的第四个文档。谁能向我解释我做错了什么？

亲切的问候

托马斯

python loops beautifulsoup web-scraping

2010-07-01T13:53:00.460

1 2 3 4 5 6 7 8 9 10

问题标签 [web-scraping]

Reference