问题标签 [web-scraping-language]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 BeautifulSoup 抓取网页
我正在尝试抓取这个网站:https ://www.senate.gov/general/contact_information/senators_cfm.cfm
我的代码:
问题是它实际上并没有进入该站点。我在汤 var 中获得的 HTML 根本不是正确网页中的 HTML。
我不确定从这里去哪里!任何和所有的帮助将不胜感激。
arrays - 从另一个文件中读取 URL 并抓取数据 - Bash
我想从 URL.txt 中获取 URL,然后将它们附加到https://www.mcdelivery.com.pk/pk/browse/menu.html
另一个文件 menu.sh 中存在的基本 URL 的末尾
Url.text 文件包含
我想https://www.mcdelivery.com.pk/pk/browse/menu.html?daypartId=1&catId=11
从 URL.txt 文件中添加基本 url + url 之类的 url
我想出了这段代码,但问题是我只从第一页获取价格,并且它不断重复同一页面的值,直到循环结束。
我得到的输出
我想从每个页面获取价格并将它们存储到 price.txt
python - 从oddsportal 网站抓取赔率
我是使用 Python 3.8.3 编程的新手。
我喜欢足球,我喜欢研究各种联赛的赔率。我正在尝试从oddsportal.com网站推断赔率,然后我想将其转移到excel。
我的问题有两个:
- 我无法理解如何以这种方式推断所有游戏,而无需每次创建更多代码(如果有 10 场比赛则为 10 个代码,如果有 5 场比赛则为 5 个代码等)现在有我关于德国的例子 - 德甲——但我想多多的冠军,目前只能刮到榜单的第一场。有没有一种快速的方法来完成这一切?
- 我想把这些数据以表格的形式放在excel上(甚至可能用逗号作为小数分隔符),关于开盘赔率,我对走势不感兴趣..我只对开盘赔率感兴趣和电流奇!
这是我的代码:
web-scraping - 从 HTML 网站提取或提取数据时出现 VBA 代码错误
我尝试使用 VBA 代码从 HTML 元素中提取或提取数据到 Excel:https ://drive.google.com/file/d/1_fGBlOLzMxmV3r-WwC8klcBNB7wUuJN2/view?usp=sharing
我的想法是从 HTML 网站中提取并提取黄色突出显示的汇率数据:https ://drive.google.com/file/d/1LACA6quFz_Am6mGVjGQ39xvehtX1sybB/view?usp=sharing
不幸的是,当我尝试运行代码时,它将错误编译为“运行时错误 445”和“对象不支持此操作”
感谢有人可以指导我找出错误所在。以下是我的完整 VBA 代码:
新的正则表达式 VBA 代码如下:
python - Selenium 和 BeautifulSoup 未在此网页上找到所有元素
我对网络抓取相当陌生,我想从 worldometer.com 抓取有关 COVID-19 的数据。但是 selenium 和 BeautifulSoup 只能找到 7 个最新标签。这是代码:
这是美丽汤的代码:
这是硒的输出:
7 印度新增 1,125 例病例和 12 例新增死亡 [来源]
这是美丽汤的输出:
2,006 例新增死亡 395 例新增死亡 321 例新增死亡 309 例新增死亡 389 例新增死亡 2020-06-17 2020-06-16 2020-06-15 2020-06-14 2020-06-13 2020-06-12
python - ConnectionResetError: [WinError 10054] 现有连接被远程主机强行关闭 - 收到此错误
ConnectionResetError: [WinError 10054] 现有连接被远程主机强行关闭
从 urllib.request import urlopen as uReq 读取以下代码中的网页时出现此错误
r - 如何抓取包含在 R 中链接的子链接中的文本?
我正在尝试抓取这个网站。
如您所见,您可以单击一个主链接和一系列标题来访问文本。最后我想得到的是主链接的所有这些子链接中的文本。我对网络抓取不是很熟悉,所以环顾四周,我认为是这样的:
然而,这种尝试严重失败。有没有人可以帮助我?
非常感谢!
web-scraping - 从 Google 表格上的 Web 抓取数据中删除已保存的重复项
提供给我的代码通过将网络抓取的数据保存在谷歌表格中来工作,但是,当它保存数据时,它会从先前安排的网络抓取中创建相同数据条目的副本。有没有办法我们可以创建一个代码,它只保存唯一的行并添加编辑/更新的信息?我添加了以下代码:
编辑:
标记为“Zapier Tax Leads”的选项卡是代码复制重复数据的位置。
在“当前税务信息”选项卡中,我们将更新的列仅是 H 到 O 列。
python - 新手,使用网络抓取从网站中提取图像时出现值错误
我试图运行这段代码,但它给出了值错误。
ValueError:未知的 url 类型:'/images/christmas-getaway-2017.jpg'
请通过此代码:
python -
由于刮擦时的标签,文本被分成新行
大家好,我正在尝试抓取页面及其中的数据,但由于文本中存在 br 标记,因此无法在一行中获取预期数据,因此数据将移至新行,任何帮助将不胜感激。
以下是我的代码:
在 productdesc 的上述代码中,我得到以下输出
预期的输出都在一行中,我用来抓取的链接是https://www.zoro.com/dorcy-pro-s-swivel-head-led-worklght-187-lumen-41-2392 /i/G9576141/