问题标签 [web-scraping-language]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

67 问题

0 投票

0 回答

319 浏览

python - Web Scraping for Google Image Download for a number of minimum 2K images in Python

I am trying with a python script to extract 2000 images from Google, but I am able to download only 80 images. Can anyone help me with the below code on how to modify to get that 2K numbers?

Please, let me know how I can resolve this and why this limit is happening while downloading the images from Google. Can I need to use something like proxycrawl, if yes how I can use this?

2020-09-11T11:47:46.997

0 投票

1 回答

33 浏览

web - 我对大学课程的网络抓取有问题

嗨，我正在尝试在网上搜索阅读大学：http ://www.reading.ac.uk/ready-to-study/study/subject-area/modern-languages-and-european-studies-ug/ba- spanish-and-history.aspx但我无法提取它的课程持续时间。谁能帮我。我使用下面的代码？

web web-scraping web-scraping-language

2020-12-24T08:09:02.210

0 投票

3 回答

77 浏览

python - 从段落中提取整数

我正在尝试仅从该段中提取费用金额，但我遇到了问题。有两笔费用，我想要其中两笔。这是我的代码：http://www.reading.ac.uk/ready-to-study/study/subject-area/modern-languages-and-european-studies-ug/ba-spanish-and-history。 aspx

python web-scraping beautifulsoup re web-scraping-language

2020-12-24T14:38:01.377

0 投票

1 回答

58 浏览

excel - 使用 VBA 进行抓取

我正在尝试从政府网站中提取一个数字，我已经做了很多谷歌搜索，但我有点迷失了想法，我下面的代码返回了一个数字，但这不是我想要得到的数字，我不完全确定为什么。

我想从“按地区划分的病例（整个大流行）”表“洛杉矶上层”部分和“海上绍森德”病例编号中减去该数字。

https://coronavirus.data.gov.uk/details/cases

我从网上某处偷了这段代码，并试图用我在网站 F12 部分找到的班级编号进行复制。

excel vba web-scraping web-scraping-language

2021-01-07T15:33:55.503

0 投票

1 回答

183 浏览

iframe - 如何使用 Selenium 和 python 编程在亚马逊中处理没有 iframe 的“邮政编码”窗口弹出

我几乎尝试使用编程语言与弹出窗口相关的所有代码是 python 编码和 selenium，但它们都不是send.key("XXXXX")邮政编码中的工作命令。因为它们大多与iframe页面源相关，所以它可以使用 windowswitch_to.frame()或switch_to.window. 在我的情况下iframe，页面源代码中没有，并且弹出窗口不会在该输入邮政编码中发送密钥。所以我需要帮助来处理这些类型的窗口弹出 python 和 selenium 编程来处理弹出窗口。

iframe selenium-chromedriver popupwindow zipcode web-scraping-language

2021-01-13T22:51:35.503

0 投票

1 回答

108 浏览

web-scraping - python中是否有任何功能可以单击链接以打开和提取电子邮件？

我正在寻找一种从网页中提取电子邮件的工具，但特殊之处在于电子邮件不是直接在页面上，而是在页面上有一个带有链接的图标列表，每个图标都链接到一个包含在实践中手动发送电子邮件，您必须单击每个图标才能查看相关电子邮件。电子邮件没有被隐藏，也没有禁止，它们是免费的，确实它们只是为了查阅，有什么工具可以做到这一点吗？否则我在 python 中看到了几个脚本，但没有这个功能，python 中有没有任何功能可以点击链接打开并提取电子邮件？如果你有例子那就太好了！

web-scraping python-requests html-email scrapinghub web-scraping-language

2021-03-29T07:23:21.020

0 投票

1 回答

73 浏览

python - 如何抓取隐藏在占位符后面的 href？

我正在尝试从网站上抓取以下 href。网站上有几个我打算抓取的href，因此我正在循环浏览该网站，以便将它们全部存储在一个列表中。以下是其中一个 href 的示例。

这是我有问题的代码部分。注释掉的是我试图只收集hrefs。由于这不起作用，现在我正试图刮掉整个“col-md-4 h-gutter”

下面是打印到终端的内容。如您所见，href 隐藏在占位符后面。

如何打印出 href 的值？

python python-3.x web-scraping beautifulsoup web-scraping-language

2021-03-29T12:21:42.410

0 投票

1 回答

82 浏览

python - 无法在美丽的汤中正确获取时间戳

在此处输入图像描述，请参考随附的图片图像。我正在尝试获取时间戳和以下 10 #content，如图所示以及下面代码中的预期输出，但是我无法获取“40 分钟前”类型的文本。相反，我得到的是这种格式的“08-04-2021 16:48:34”。

另外我正在尝试获取时间戳，然后是 10 个#content 标题。如随附的屏幕截图所示。

python web-scraping beautifulsoup timestamp web-scraping-language

2021-04-08T17:13:24.347

0 投票

0 回答

30 浏览

python - 如何解决给定网络抓取工具中的意外 EOF 错误？

目前，我正在自学网页抓取。

三天后，我掌握了 Beautifulsoup 单个查询的窍门，但我在循环中使用for ....来获取多个块。

这是我的设置：

在引号中引用：

我总是在 Google Colab 中收到此错误。

文件“”，第 3 行引号中的引号：^ SyntaxError：解析时意外 EOF

例如，是否添加无关紧要。

python web-scraping beautifulsoup web-scraping-language

2021-04-25T09:51:17.447

0 投票

1 回答

37 浏览

python - 我正在网上搜索产品和价格。输出出现在产品和价格之间的字符我如何删除它们

python pandas beautifulsoup python-requests-html web-scraping-language

2021-05-13T09:25:47.433

1 2 3 4 5 6 7 8 9 10

问题标签 [web-scraping-language]

Reference