问题标签 [web-scraping-language]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
69 浏览

python - 使用 BeautifulSoup 抓取网页

我正在尝试抓取这个网站:https ://www.senate.gov/general/contact_information/senators_cfm.cfm

我的代码:

问题是它实际上并没有进入该站点。我在汤 var 中获得的 HTML 根本不是正确网页中的 HTML。

我不确定从这里去哪里!任何和所有的帮助将不胜感激。

0 投票
2 回答
99 浏览

arrays - 从另一个文件中读取 URL 并抓取数据 - Bash

我想从 URL.txt 中获取 URL,然后将它们附加到https://www.mcdelivery.com.pk/pk/browse/menu.html另一个文件 menu.sh 中存在的基本 URL 的末尾

Url.text 文件包含

我想https://www.mcdelivery.com.pk/pk/browse/menu.html?daypartId=1&catId=11 从 URL.txt 文件中添加基本 url + url 之类的 url

我想出了这段代码,但问题是我只从第一页获取价格,并且它不断重复同一页面的值,直到循环结束。

我得到的输出

我想从每个页面获取价格并将它们存储到 price.txt

0 投票
0 回答
849 浏览

python - 从oddsportal 网站抓取赔率

我是使用 Python 3.8.3 编程的新手。

我喜欢足球,我喜欢研究各种联赛的赔率。我正在尝试从oddsportal.com网站推断赔率,然后我想将其转移到excel。

我的问题有两个:

  1. 我无法理解如何以这种方式推断所有游戏,而无需每次创建更多代码(如果有 10 场比赛则为 10 个代码,如果有 5 场比赛则为 5 个代码等)现在有我关于德国的例子 - 德甲——但我想多多的冠军,目前只能刮到榜单的第一场。有没有一种快速的方法来完成这一切?
  2. 我想把这些数据以表格的形式放在excel上(甚至可能用逗号作为小数分隔符),关于开盘赔率,我对走势不感兴趣..我只对开盘赔率感兴趣和电流奇!

这是我的代码:

0 投票
1 回答
124 浏览

web-scraping - 从 HTML 网站提取或提取数据时出现 VBA 代码错误

我尝试使用 VBA 代码从 HTML 元素中提取或提取数据到 Excel:https ://drive.google.com/file/d/1_fGBlOLzMxmV3r-WwC8klcBNB7wUuJN2/view?usp=sharing

我的想法是从 HTML 网站中提取并提取黄色突出显示的汇率数据:https ://drive.google.com/file/d/1LACA6quFz_Am6mGVjGQ39xvehtX1sybB/view?usp=sharing

不幸的是,当我尝试运行代码时,它将错误编译为“运行时错误 445”和“对象不支持此操作”

感谢有人可以指导我找出错误所在。以下是我的完整 VBA 代码:

新的正则表达式 VBA 代码如下:

0 投票
0 回答
128 浏览

python - Selenium 和 BeautifulSoup 未在此网页上找到所有元素

我对网络抓取相当陌生,我想从 worldometer.com 抓取有关 COVID-19 的数据。但是 selenium 和 BeautifulSoup 只能找到 7 个最新标签。这是代码:

这是美丽汤的代码:

这是硒的输出:

7 印度新增 1,125 例病例和 12 例新增死亡 [来源]

这是美丽汤的输出:

2,006 例新增死亡 395 例新增死亡 321 例新增死亡 309 例新增死亡 389 例新增死亡 2020-06-17 2020-06-16 2020-06-15 2020-06-14 2020-06-13 2020-06-12

0 投票
1 回答
1130 浏览

python - ConnectionResetError: [WinError 10054] 现有连接被远程主机强行关闭 - 收到此错误

ConnectionResetError: [WinError 10054] 现有连接被远程主机强行关闭

从 urllib.request import urlopen as uReq 读取以下代码中的网页时出现此错误

0 投票
1 回答
49 浏览

r - 如何抓取包含在 R 中链接的子链接中的文本?

我正在尝试抓取这个网站

在此处输入图像描述

如您所见,您可以单击一个主链接和一系列标题来访问文本。最后我想得到的是主链接的所有这些子链接中的文本。我对网络抓取不是很熟悉,所以环顾四周,我认为是这样的:

然而,这种尝试严重失败。有没有人可以帮助我?

非常感谢!

0 投票
1 回答
143 浏览

web-scraping - 从 Google 表格上的 Web 抓取数据中删除已保存的重复项

提供给我的代码通过将网络抓取的数据保存在谷歌表格中来工作,但是,当它保存数据时,它会从先前安排的网络抓取中创建相同数据条目的副本。有没有办法我们可以创建一个代码,它只保存唯一的行并添加编辑/更新的信息?我添加了以下代码:

编辑:

0 投票
1 回答
25 浏览

python - 新手,使用网络抓取从网站中提取图像时出现值错误

我试图运行这段代码,但它给出了值错误。

ValueError:未知的 url 类型:'/images/christmas-getaway-2017.jpg'

请通过此代码:

0 投票
1 回答
417 浏览

python -
由于刮擦时的标签,文本被分成新行

大家好,我正在尝试抓取页面及其中的数据,但由于文本中存在 br 标记,因此无法在一行中获取预期数据,因此数据将移至新行,任何帮助将不胜感激。

以下是我的代码:

在 productdesc 的上述代码中,我得到以下输出

预期的输出都在一行中,我用来抓取的链接是https://www.zoro.com/dorcy-pro-s-swivel-head-led-worklght-187-lumen-41-2392 /i/G9576141/