问题标签 [web-scraping-language]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
319 浏览

python - Web Scraping for Google Image Download for a number of minimum 2K images in Python

I am trying with a python script to extract 2000 images from Google, but I am able to download only 80 images. Can anyone help me with the below code on how to modify to get that 2K numbers?

Please, let me know how I can resolve this and why this limit is happening while downloading the images from Google. Can I need to use something like proxycrawl, if yes how I can use this?

0 投票
1 回答
33 浏览

web - 我对大学课程的网络抓取有问题

嗨,我正在尝试在网上搜索阅读大学:http ://www.reading.ac.uk/ready-to-study/study/subject-area/modern-languages-and-european-studies-ug/ba- spanish-and-history.aspx但我无法提取它的课程持续时间。谁能帮我。我使用下面的代码?

0 投票
3 回答
77 浏览

python - 从段落中提取整数

我正在尝试仅从该段中提取费用金额,但我遇到了问题。有两笔费用,我想要其中两笔。这是我的代码:http://www.reading.ac.uk/ready-to-study/study/subject-area/modern-languages-and-european-studies-ug/ba-spanish-and-history。 aspx

0 投票
1 回答
58 浏览

excel - 使用 VBA 进行抓取

我正在尝试从政府网站中提取一个数字,我已经做了很多谷歌搜索,但我有点迷失了想法,我下面的代码返回了一个数字,但这不是我想要得到的数字,我不完全确定为什么。

我想从“按地区划分的病例(整个大流行)”表“洛杉矶上层”部分和“海上绍森德”病例编号中减去该数字。

https://coronavirus.data.gov.uk/details/cases

我从网上某处偷了这段代码,并试图用我在网站 F12 部分找到的班级编号进行复制。

0 投票
1 回答
183 浏览

iframe - 如何使用 Selenium 和 python 编程在亚马逊中处理没有 iframe 的“邮政编码”窗口弹出

我几乎尝试使用编程语言与弹出窗口相关的所有代码是 python 编码和 selenium,但它们都不是send.key("XXXXX")邮政编码中的工作命令。因为它们大多与iframe页面源相关,所以它可以使用 windowswitch_to.frame()switch_to.window. 在我的情况下iframe,页面源代码中没有,并且弹出窗口不会在该输入邮政编码中发送密钥。所以我需要帮助来处理这些类型的窗口弹出 python 和 selenium 编程来处理弹出窗口。

0 投票
1 回答
108 浏览

web-scraping - python中是否有任何功能可以单击链接以打开和提取电子邮件?

我正在寻找一种从网页中提取电子邮件的工具,但特殊之处在于电子邮件不是直接在页面上,而是在页面上有一个带有链接的图标列表,每个图标都链接到一个包含在实践中手动发送电子邮件,您必须单击每个图标才能查看相关电子邮件。电子邮件没有被隐藏,也没有禁止,它们是免费的,确实它们只是为了查阅,有什么工具可以做到这一点吗?否则我在 python 中看到了几个脚本,但没有这个功能,python 中有没有任何功能可以点击链接打开并提取电子邮件?如果你有例子那就太好了!

0 投票
1 回答
73 浏览

python - 如何抓取隐藏在占位符后面的 href?

我正在尝试从网站上抓取以下 href。网站上有几个我打算抓取的href,因此我正在循环浏览该网站,以便将它们全部存储在一个列表中。以下是其中一个 href 的示例。

这是我有问题的代码部分。注释掉的是我试图只收集hrefs。由于这不起作用,现在我正试图刮掉整个“col-md-4 h-gutter”

下面是打印到终端的内容。如您所见,href 隐藏在占位符后面。

如何打印出 href 的值?

0 投票
1 回答
82 浏览

python - 无法在美丽的汤中正确获取时间戳

在此处输入图像描述, 请参考随附的图片图像。我正在尝试获取时间戳和以下 10 #content,如图所示以及下面代码中的预期输出,但是我无法获取“40 分钟前”类型的文本。相反,我得到的是这种格式的“08-04-2021 16:48:34”。

另外我正在尝试获取时间戳,然后是 10 个#content 标题。如随附的屏幕截图所示。

0 投票
0 回答
30 浏览

python - 如何解决给定网络抓取工具中的意外 EOF 错误?

目前,我正在自学网页抓取。

三天后,我掌握了 Beautifulsoup 单个查询的窍门,但我在循环中使用for ....来获取多个块。

这是我的设置:

在引号中引用:

我总是在 Google Colab 中收到此错误。

文件“”,第 3 行引号中的引号:^ SyntaxError:解析时意外 EOF

例如,是否添加无关紧要。

0 投票
1 回答
37 浏览

python - 我正在网上搜索产品和价格。输出出现在产品和价格之间的字符我如何删除它们