问题标签 [web-scraping-language]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
48 浏览

python-3.x - 如果我要在 python helium 中使用无头浏览器,使用新选项卡或新窗口是否重要

我正在使用 helium 库来抓取动态网站,我发现使用标签比使用许多窗口要快得多,但是当我在新标签中打开某些网站时,它们会显示一些广告,而我找不到关闭它们的方法。这让我寻找了很多我不理解的 JS 代码,并且大多数时候它们在 python 中使用 helium 库执行时无法正常工作,即使它们在 Google Chrome 的控制台中工作正常。

但是,代码应该是无头运行的,我做所有这些只是为了测试,这是我的主要问题 中使用无头浏览器,是否使用新选项卡或新窗口是否重要?更快,就像它正常运行时发生的一样,或者因为它是无头的,所以没有区别?

别忘了提一下,因为我不必使用 JS 代码,所以使用许多窗口对我来说更容易。

它们在 Google Chrome 控制台中都可以正常工作,但由于某种原因,我无法执行它们 python helium。我尝试使用以提供更多时间time.sleep(5)来加载页面,但它不起作用

更不用说我尝试使用click()氦气的方法,它给了我一个LookupError()

0 投票
0 回答
29 浏览

javascript - How to use IMPORTXML function on google sheets scrape data of JavaScript content/elements from websites

I would have tried the use of IMPORTXML function on google sheets to scrape data on https://goldprice.org/spot-gold.html

However, when I use a function of

=importXML("https://goldprice.org/spot-gold.html","//*[@id='gpxtickerLeft_price']") then it shows #N/A

and after searching on Google and Youtube it indicates the cause is scraping data of JavaScript content/elements from websites

So, how to import data of JavaScript content/elements from websites on google sheets

0 投票
2 回答
100 浏览

python - 从多个页面抓取表格的功能

我正在学习 Python,我正在尝试创建一个函数来从几个不同的网页中抓取疫苗接种率表 - 我们的世界数据的 github 存储库https://github.com/owid/covid-19-data/tree /master/public/data/vaccinations/country_datahttps://ourworldindata.org/about。当网络抓取单个表格并将其保存到数据框中时,该代码可以完美运行......

但是在尝试创建一个抓取几页的函数时,我运气不佳。我一直在关注本网站3中“使用一个脚本抓取多个页面”部分的教程以及 StackOverflow 问题(例如45等其他页面)。我曾尝试先创建一个全局变量,但最终出现“递归错误:调用 Python 对象时超出最大递归深度”之类的错误。这是我管理过的最好的代码,因为它不会产生错误,但我没有设法将输出保存到全局变量中。我真的很感谢你的帮助。

编辑:我可以查看在保存到 csv 文件时迭代的最终网页,但不能查看来自前面链接的数据。

0 投票
0 回答
113 浏览

python - 使用 Scrapy Python 提取数据时出错

但我收到错误

在此处输入图像描述

我正在使用 conda 虚拟工作空间环境和 vs code - macos。

0 投票
2 回答
37 浏览

python - 如何使用python从网站中的链接页面中提取数据

我一直在尝试从网页中抓取数据以进行数据分析项目,并且成功地从单个页面中获取数据。

对于来自网站“https://www.essex.ac.uk/course-search?query=&f.Level%7CcourseLevel=Undergraduate”的示例,我需要在每个课程中导航并从该页面获取一个称为持续时间的数据.

0 投票
1 回答
24 浏览

python - 网页抓取没有结果

我想在网站everysize.com 上打印运动鞋的href 已 检查href&class 网站

href 位于 li class='item span3 减少 - 加载的值' 中,我尝试使用此代码打印它

当我尝试在终端中运行此代码时,我只收到消息: [Done] exited with code=0 in 0.775 seconds but it should have print the individual hrefs? 任何人都可以看到我做错了什么

0 投票
1 回答
1631 浏览

python - Python:如何使用 Snscrap 遍历 Twitter 用户列表?

我试图通过用户列表检索推文,但是在 snscrape 函数中,此参数在引号内,这使得用户名被视为固定输入

作为输出Python得到:

此代码可以很好地用用户名替换花括号并删除 .format 属性。如果要复制此代码,请确保使用以下命令安装 snscrape 库:

我真的很感激你能给我的任何指导。

0 投票
0 回答
81 浏览

python - 如何使用 selenium webdriver 减慢动态页面的滚动速度

我正在使用以下代码使用由 JS 呈现的 python selenium webdriver 滚动动态页面。我可以滚动,但问题是滚动速度太快,页面的大部分元素都没有加载,我想刮掉。有什么办法可以减慢滚动速度。

0 投票
1 回答
70 浏览

javascript - Puppeteer - 需要帮助从 h2 和 span 中提取文本

绝对是 JS 的初学者。我需要帮助来从 DOM 中提取如下所示的文本。提取可以通过 querySelectorAll() 或 getElementsByTagName() 完成。但我正在寻找的是创建一个对象,其中每个 h2 元素作为键,跨度作为它的值。我不知道如何实现这一点。任何建议都会非常有帮助。

从这个 DOM 我需要将数据存储为

JS:

0 投票
2 回答
53 浏览

python - 如何抓取没有唯一 ID 的字符串进行数据提取?

在图像中,有一个名为 的文本for sale in 63702 Kolaram

请告诉如何使用BeautifulSoup Python.

网页抓取图像

https://www.magicbricks.com/property-for-sale-in-namakkal-pppfs