问题标签 [web-scraping-language]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

67 问题

0 投票

1 回答

48 浏览

python-3.x - 如果我要在 python helium 中使用无头浏览器，使用新选项卡或新窗口是否重要

我正在使用 helium 库来抓取动态网站，我发现使用标签比使用许多窗口要快得多，但是当我在新标签中打开某些网站时，它们会显示一些广告，而我找不到关闭它们的方法。这让我寻找了很多我不理解的 JS 代码，并且大多数时候它们在 python 中使用 helium 库执行时无法正常工作，即使它们在 Google Chrome 的控制台中工作正常。

但是，代码应该是无头运行的，我做所有这些只是为了测试，这是我的主要问题中使用无头浏览器，是否使用新选项卡或新窗口是否重要？更快，就像它正常运行时发生的一样，或者因为它是无头的，所以没有区别？

别忘了提一下，因为我不必使用 JS 代码，所以使用许多窗口对我来说更容易。

它们在 Google Chrome 控制台中都可以正常工作，但由于某种原因，我无法执行它们 python helium。我尝试使用以提供更多时间time.sleep(5)来加载页面，但它不起作用

更不用说我尝试使用click()氦气的方法，它给了我一个LookupError()

2021-05-16T14:59:41.127

0 投票

0 回答

29 浏览

javascript - How to use IMPORTXML function on google sheets scrape data of JavaScript content/elements from websites

I would have tried the use of IMPORTXML function on google sheets to scrape data on https://goldprice.org/spot-gold.html

However, when I use a function of

=importXML("https://goldprice.org/spot-gold.html","//*[@id='gpxtickerLeft_price']") then it shows #N/A

and after searching on Google and Youtube it indicates the cause is scraping data of JavaScript content/elements from websites

So, how to import data of JavaScript content/elements from websites on google sheets

javascript google-apps-script web-scraping google-sheets web-scraping-language

2021-05-25T06:29:56.650

0 投票

2 回答

100 浏览

python - 从多个页面抓取表格的功能

我正在学习 Python，我正在尝试创建一个函数来从几个不同的网页中抓取疫苗接种率表 - 我们的世界数据的 github 存储库https://github.com/owid/covid-19-data/tree /master/public/data/vaccinations/country_data和https://ourworldindata.org/about。当网络抓取单个表格并将其保存到数据框中时，该代码可以完美运行......

但是在尝试创建一个抓取几页的函数时，我运气不佳。我一直在关注本网站3中“使用一个脚本抓取多个页面”部分的教程以及 StackOverflow 问题（例如4和5等其他页面）。我曾尝试先创建一个全局变量，但最终出现“递归错误：调用 Python 对象时超出最大递归深度”之类的错误。这是我管理过的最好的代码，因为它不会产生错误，但我没有设法将输出保存到全局变量中。我真的很感谢你的帮助。

编辑：我可以查看在保存到 csv 文件时迭代的最终网页，但不能查看来自前面链接的数据。

python function web-scraping-language

2021-05-28T01:15:04.410

0 投票

0 回答

113 浏览

python - 使用 Scrapy Python 提取数据时出错

但我收到错误

我正在使用 conda 虚拟工作空间环境和 vs code - macos。

python web-scraping scrapy web-scraping-language

2021-05-30T03:07:03.867

0 投票

2 回答

37 浏览

python - 如何使用python从网站中的链接页面中提取数据

我一直在尝试从网页中抓取数据以进行数据分析项目，并且成功地从单个页面中获取数据。

对于来自网站“https://www.essex.ac.uk/course-search?query=&f.Level%7CcourseLevel=Undergraduate”的示例，我需要在每个课程中导航并从该页面获取一个称为持续时间的数据.

python python-3.x web web-scraping web-scraping-language

2021-06-04T08:43:31.983

0 投票

1 回答

24 浏览

python - 网页抓取没有结果

我想在网站everysize.com 上打印运动鞋的href 已检查href&class 网站

href 位于 li class='item span3 减少 - 加载的值' 中，我尝试使用此代码打印它

当我尝试在终端中运行此代码时，我只收到消息： [Done] exited with code=0 in 0.775 seconds but it should have print the individual hrefs? 任何人都可以看到我做错了什么

python web-scraping web-scraping-language

2021-06-04T21:38:22.900

0 投票

1 回答

1631 浏览

python - Python：如何使用 Snscrap 遍历 Twitter 用户列表？

我试图通过用户列表检索推文，但是在 snscrape 函数中，此参数在引号内，这使得用户名被视为固定输入

作为输出Python得到：

此代码可以很好地用用户名替换花括号并删除 .format 属性。如果要复制此代码，请确保使用以下命令安装 snscrape 库：

我真的很感激你能给我的任何指导。

python twitter scrapy web-scraping-language

2021-06-11T15:41:18.300

0 投票

0 回答

81 浏览

python - 如何使用 selenium webdriver 减慢动态页面的滚动速度

我正在使用以下代码使用由 JS 呈现的 python selenium webdriver 滚动动态页面。我可以滚动，但问题是滚动速度太快，页面的大部分元素都没有加载，我想刮掉。有什么办法可以减慢滚动速度。

python python-3.x selenium-webdriver web-scraping-language

2021-06-30T14:33:15.420

0 投票

1 回答

70 浏览

javascript - Puppeteer - 需要帮助从 h2 和 span 中提取文本

绝对是 JS 的初学者。我需要帮助来从 DOM 中提取如下所示的文本。提取可以通过 querySelectorAll() 或 getElementsByTagName() 完成。但我正在寻找的是创建一个对象，其中每个 h2 元素作为键，跨度作为它的值。我不知道如何实现这一点。任何建议都会非常有帮助。

从这个 DOM 我需要将数据存储为

JS：

javascript html arrays puppeteer web-scraping-language

2021-07-15T09:44:12.147

0 投票

2 回答

53 浏览

python - 如何抓取没有唯一 ID 的字符串进行数据提取？

在图像中，有一个名为的文本for sale in 63702 Kolaram。

请告诉如何使用BeautifulSoup Python.

网页抓取图像

https://www.magicbricks.com/property-for-sale-in-namakkal-pppfs

python web-scraping beautifulsoup data-extraction web-scraping-language

2021-07-15T12:50:30.010

1 2 3 4 5 6 7 8 9 10

问题标签 [web-scraping-language]

Reference