问题标签 [web-scraping-language]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

67 问题

0 投票

2 回答

69 浏览

python - 使用 BeautifulSoup 抓取网页

我正在尝试抓取这个网站：https ://www.senate.gov/general/contact_information/senators_cfm.cfm

我的代码：

问题是它实际上并没有进入该站点。我在汤 var 中获得的 HTML 根本不是正确网页中的 HTML。

我不确定从这里去哪里！任何和所有的帮助将不胜感激。

2020-05-29T14:03:44.877

0 投票

2 回答

99 浏览

arrays - 从另一个文件中读取 URL 并抓取数据 - Bash

我想从 URL.txt 中获取 URL，然后将它们附加到https://www.mcdelivery.com.pk/pk/browse/menu.html另一个文件 menu.sh 中存在的基本 URL 的末尾

Url.text 文件包含

我想https://www.mcdelivery.com.pk/pk/browse/menu.html?daypartId=1&catId=11 从 URL.txt 文件中添加基本 url + url 之类的 url

我想出了这段代码，但问题是我只从第一页获取价格，并且它不断重复同一页面的值，直到循环结束。

我得到的输出

我想从每个页面获取价格并将它们存储到 price.txt

arrays bash web-scraping readfile web-scraping-language

user13683097

2020-06-07T10:58:37.600

0 投票

0 回答

849 浏览

python - 从oddsportal 网站抓取赔率

我是使用 Python 3.8.3 编程的新手。

我喜欢足球，我喜欢研究各种联赛的赔率。我正在尝试从oddsportal.com网站推断赔率，然后我想将其转移到excel。

我的问题有两个：

我无法理解如何以这种方式推断所有游戏，而无需每次创建更多代码（如果有 10 场比赛则为 10 个代码，如果有 5 场比赛则为 5 个代码等）现在有我关于德国的例子 - 德甲——但我想多多的冠军，目前只能刮到榜单的第一场。有没有一种快速的方法来完成这一切？
我想把这些数据以表格的形式放在excel上（甚至可能用逗号作为小数分隔符），关于开盘赔率，我对走势不感兴趣..我只对开盘赔率感兴趣和电流奇！

这是我的代码：

python web web-scraping web-scraping-language

2020-06-10T09:11:41.880

0 投票

1 回答

124 浏览

web-scraping - 从 HTML 网站提取或提取数据时出现 VBA 代码错误

我尝试使用 VBA 代码从 HTML 元素中提取或提取数据到 Excel：https ://drive.google.com/file/d/1_fGBlOLzMxmV3r-WwC8klcBNB7wUuJN2/view?usp=sharing

我的想法是从 HTML 网站中提取并提取黄色突出显示的汇率数据：https ://drive.google.com/file/d/1LACA6quFz_Am6mGVjGQ39xvehtX1sybB/view?usp=sharing

不幸的是，当我尝试运行代码时，它将错误编译为“运行时错误 445”和“对象不支持此操作”

感谢有人可以指导我找出错误所在。以下是我的完整 VBA 代码：

新的正则表达式 VBA 代码如下：

web-scraping getelementsbyclassname navigateurl web-scraping-language

2020-06-15T16:40:20.930

0 投票

0 回答

128 浏览

python - Selenium 和 BeautifulSoup 未在此网页上找到所有元素

我对网络抓取相当陌生，我想从 worldometer.com 抓取有关 COVID-19 的数据。但是 selenium 和 BeautifulSoup 只能找到 7 个最新标签。这是代码：

这是美丽汤的代码：

这是硒的输出：

7 印度新增 1,125 例病例和 12 例新增死亡 [来源]

这是美丽汤的输出：

2,006 例新增死亡 395 例新增死亡 321 例新增死亡 309 例新增死亡 389 例新增死亡 2020-06-17 2020-06-16 2020-06-15 2020-06-14 2020-06-13 2020-06-12

python selenium web-scraping beautifulsoup web-scraping-language

2020-06-18T08:59:58.963

0 投票

1 回答

1130 浏览

python - ConnectionResetError: [WinError 10054] 现有连接被远程主机强行关闭 - 收到此错误

ConnectionResetError: [WinError 10054] 现有连接被远程主机强行关闭

从 urllib.request import urlopen as uReq 读取以下代码中的网页时出现此错误

python web-scraping web-scraping-language

user13553031

2020-06-19T03:47:49.120

0 投票

1 回答

49 浏览

r - 如何抓取包含在 R 中链接的子链接中的文本？

我正在尝试抓取这个网站。

如您所见，您可以单击一个主链接和一系列标题来访问文本。最后我想得到的是主链接的所有这些子链接中的文本。我对网络抓取不是很熟悉，所以环顾四周，我认为是这样的：

然而，这种尝试严重失败。有没有人可以帮助我？

非常感谢！

r web-scraping rvest web-scraping-language

2020-07-21T14:41:02.113

0 投票

1 回答

143 浏览

web-scraping - 从 Google 表格上的 Web 抓取数据中删除已保存的重复项

提供给我的代码通过将网络抓取的数据保存在谷歌表格中来工作，但是，当它保存数据时，它会从先前安排的网络抓取中创建相同数据条目的副本。有没有办法我们可以创建一个代码，它只保存唯一的行并添加编辑/更新的信息？我添加了以下代码：

编辑：

标记为“Zapier Tax Leads”的选项卡是代码复制重复数据的位置。
在“当前税务信息”选项卡中，我们将更新的列仅是 H 到 O 列。
电子表格链接：https ://docs.google.com/spreadsheets/d/1G1PLs46cnQ-CyJWBI0ibKNmYosSEQRcrAGE8Qx2MArU/edit?usp=sharing

web-scraping google-sheets google-sheets-formula google-sheets-api web-scraping-language

2020-07-30T15:56:51.970

0 投票

1 回答

25 浏览

python - 新手，使用网络抓取从网站中提取图像时出现值错误

我试图运行这段代码，但它给出了值错误。

ValueError：未知的 url 类型：'/images/christmas-getaway-2017.jpg'

请通过此代码：

python image web-scraping-language

2020-08-24T09:43:42.737

0 投票

1 回答

417 浏览

python -
由于刮擦时的标签，文本被分成新行

大家好，我正在尝试抓取页面及其中的数据，但由于文本中存在 br 标记，因此无法在一行中获取预期数据，因此数据将移至新行，任何帮助将不胜感激。

以下是我的代码：

在 productdesc 的上述代码中，我得到以下输出

预期的输出都在一行中，我用来抓取的链接是https://www.zoro.com/dorcy-pro-s-swivel-head-led-worklght-187-lumen-41-2392 /i/G9576141/

python python-3.x selenium-webdriver web-scraping web-scraping-language

2020-09-05T14:52:15.567

1 2 3 4 5 6 7 8 9 10

问题标签 [web-scraping-language]

编辑：

Reference