问题标签 [web-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - 如何在 R 中从抓取的网页中隔离单个元素
我想用 R 来抓取这个页面:(http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html)和其他人,以获得进球者和时间。
到目前为止,这就是我所拥有的:
并且 pagetree 对象现在包含一个指向我解析的 html 的指针(我认为)。我想要的部分是:
但我现在不知道如何隔离它们,坦率地说xpathSApply
,xpathApply
让我迷惑不解!
那么,有谁知道如何制定一个命令来吸出<div class="cont">
标签中包含的元素?
c# - 从 .NET 和 C# 中的网站提取数据的问题
我编写了一个网页抓取程序来访问页面列表并将所有 html 写入文件。问题是,当我拉出一段文本时,一些字符会写成“�”。如何将这些字符拉到我的文本文件中?这是我的代码:
python - 使用 Python 模拟浏览器资源扩展行为
我正在寻找一种模拟浏览器资源扩展行为的方法。
我试图解决的流程如下:
- 访问初始 URL(例如http://example.dmn/index.htm)
- 解析收到的 html 响应(例如 index.htm)
- 查找浏览器将作为索引解析的结果获取的资源,例如:
- 图片
- 闪光
- 嵌入式视频/音频
- 框架/iFrames
- 为找到的每个新资源递归地重复该过程
我不希望跟随链接(href),只有在第一次访问页面时浏览器会自动获取的页面资源。
你对如何进行这个模拟有什么建议吗?
是否有任何 Python 项目/库可以提供帮助?
谢谢
javascript - 从asp页面获取数据
我想知道是否有任何方法可以获取从 ASP 页面生成的 html。我试图从页面中拉出一个表格,并且我愚蠢地使用了一个静态 html 页面,因此我不必在测试我的代码时不断地查询该页面所在的服务器。我编写的用于从页面抓取未标记表格的 javascript 代码有效。然后当我用真实页面进行实践时,发现ASP页面并没有在URL上生成带有jquery .get请求的可查看页面。
有什么方法可以查询我需要的表的页面,以便 ASP 页面根据请求返回有效页面?
(我也仅限于使用 javascript 和 perl,这将驻留的服务器不会运行 php,我不想通过添加专有软件的问题来学习 ASP.NET 来解决这个问题)
java - 从 HttpClient for Android 获取 Web 结果
例如:假设我在沃尔玛主页上搜索了一些东西。像这样。我将如何从列出的第一个产品中检索信息。产品名称、价格、详细信息、评级、型号等信息。我将如何在框中搜索。在我看来,唯一的方法是替换http://www.walmart.com/search/search-ng.do?search_constraint=0&ic=48_0&search_query= someProduct &Find.x=0&Find.y=0&Find=Find。然后用 seach 替换 someProduct 并在 HttpClient 中调用它。
php - 如何使用 PHP 从 LocService (http://www.trackdroid.org/locservice.html) 抓取数据
我希望从LocService(一种从 Android 手机跟踪 GPS ping 的解决方案)中抓取地理位置数据,并将其作为 PHP cron 作业托管在 MySQL 数据库中。登录系统使用 HTTPS。我无法通过 cURL 返回任何内容。
有没有人有任何想法?
高西
python - 检索大量 url 地址
编辑:只是为了澄清我正在使用 python,并希望在 python 中执行此操作。
我正在为我们大学的一个研究项目收集数据。基本上我需要从监控欧洲议会的网站上抓取大量信息。以下是一个网站的 url 外观示例:
地址参考部分后面的数字是指:A7 = 正在开会的议会(以前的议会是 A6 等),2010 = 年份,0190 = 文件编号。
我想要做的是创建一个变量,其中包含不同议会的所有 url,所以我可以循环这个变量并从网站上抓取信息。
PS:我试过这个:
但这给了我以下错误: Traceback(最近一次调用最后一次):文件“”,第 7 行,在 IndexError:列表索引超出范围
python - 使用 BeautifulSoup 清理和删除标签
到目前为止,我有以下脚本:
它运行完美,并产生以下“项目”:
但是,我想拿东西并清理它以获得
如何在 BeautifulSoup 和 Python 中删除这些标签?
一如既往,谢谢!
python - 逃避……用 BeautifulSoup
我目前正在使用 BeautifulSoup 来抓取一些网站,但是我对某些特定字符有疑问,UnicodeDammit 中的代码似乎(再次)表明这是一些微软发明的。
我正在使用最新版本的 BeautifulSoup(3.0.8.1),因为我仍在使用 python2.5
以下代码说明了我的问题:
如您所见,问题在于末尾的 '...'(&hellip) 字符(您的浏览器可能正确转义了该字符)。显然这不是我感兴趣的。
有这个字符的 unicode 表示或其他东西会很好。即使只是简单地忽略它也会解决我的特殊问题。
我怎么能用 BeautifulSoup 做到这一点?
python - 使用 BeautifulSoup 抓取数据的问题
我编写了以下试用代码,以从欧洲议会中检索立法法案的标题。
但是,每当我运行它时,我都会收到以下错误:
我已将其范围缩小到 BeautifulSoup 无法读取循环中的第四个文档。谁能向我解释我做错了什么?
亲切的问候
托马斯