问题标签 [web-scraping-language]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
58 浏览

python - 如何在网页抓取中使用 br 标签以获得更好的输出?

我正在尝试抓取此站点链接。我正在尝试抓取这个特定的部分,请在下面找到 HTML:

输出是这样的:

ABDULLA SALEM CONTRACTING ESTBuilding ContractorsP.O. Box: 200Location: Umm Al Quwain电话:06-7655445

我怎样才能得到它:

  • 阿布杜拉塞勒姆合同 EST
  • 建筑承包商
  • 邮政信箱:200
  • 地点:乌姆盖万
  • 电话:06-7655445
0 投票
1 回答
39 浏览

python - 未知目标文本大小的文本摘要

我在 python3 中使用 Tensorflow keras 库进行未知文本大小的文本摘要。

我正在使用此链接中的代码说明进行文本摘要。但看起来代码为要汇总的输入文本的最大大小设置了值,因为它已经知道要汇总的文本大小。但如果我不知道怎么办?我的意思是,如果我必须对许多我不知道它们总大小的文本进行摘要?

错误文本太长,所以我没有成功找到与我的案例相关的内容。

所以错误是:

indices[0,0] = 30 不在 [0, 13) [[node model_2/embedding_1/embedding_lookup (定义在 C:\Users\f_pc\Desktop\class_python.py:314)]] [Op:__inference_predict_function_19765]

错误可能源于输入操作。连接到节点 model_2/embedding_1/embedding_lookup 的输入源操作:model_2/embedding_1/embedding_lookup/19252(定义在 D:\obj\windows-release\37amd64_Release\msi_python\zip_amd64\contextlib.py:112)

函数调用栈:predict_function

我也在尝试

但是加起来这个大小,分析时间增加了,但也有

0 投票
0 回答
39 浏览

r - 对于抓取数据,您如何导航到您创建的链接?那么,如何从新页面中抓取数据?

这是我创建的示例代码。我已经能够创建一个新链接,但我很困惑如何跟随链接并从跟随的链接中抓取数据。

我如何跟踪合并的链接并从新页面中抓取数据,是否可以在不使用函数的情况下做到这一点?

0 投票
1 回答
372 浏览

python - 如何从元素列表python中提取数据

我正在做一个真正阻碍我的项目 我经常在这里问问题,你帮了我很多,因为我还是一个初学者,我的项目包括为一家代理商制作一个有竞争力的酒店价格表 这是一个痛苦的行动我想自动化它,我成功地提取了关税及其价格,但问题是我希望他只给我选定的房间我为你提供代码和输出我删除了我想要删除的数据我的输出还添加了图像以更好地澄清事情,如果你们中的任何人可以帮助我并提前感谢您。

注意:感谢 pmadhu 的回答问题已解决,但现在它向我显示所有酒店的价格相同。

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
0 回答
27 浏览

python - 从 YouTube 频道的频道的所有视频中提取数据

我可以使用哪个库从 youtube 中抓取所有上述列数据

特定频道上的所有视频

就像我可以使用频道中的全部播放按钮来播放列表中的所有视频并开始从特定频道中抓取所有信息

有什么建议吗??

0 投票
1 回答
83 浏览

python - 进入 403 页面时的网页抓取

我是网络抓取的初学者,需要使用 Beautifulsoup抓取https://mirror-h.org/archive/page/1 。但它给出了一个错误并转到 403 页面。我该如何解决这个问题?我真的很感谢你的帮助。

这是我的代码:

我得到的错误是:

0 投票
1 回答
263 浏览

python - MissingSchema:无效的 URL 'h':未提供架构。也许你的意思是 http://h?

我一直在尝试从 google 中抓取不同公司名称的地址和电话号码,当我提供 URL 时,我的代码可以正常工作,它会获取所需的信息。但是当我尝试循环时,我得到了以下错误。

但相同的 URL 可以正常工作,如下所示!

这是在循环时引发错误的代码

0 投票
1 回答
753 浏览

python - 来自 Vivino.com 的数据抓取 - 葡萄酒信息和评论

为了写我的硕士论文,我需要收集数据。现在,我想从 Vivino.com 收集数据,但我没有任何网络抓取经验。我已经看到了一些关于此的问题,但我想收集有关葡萄酒的所有信息(名称、国家、评级、描述、价格等)和葡萄酒的评论。

使用此代码,我可以收集 ['Winery' 'Wine' 'Rating' 'num_review']

使用以下代码,我可以收集评论:

有人可以帮我如何结合所有这些信息吗?那么,包括相应评论在内的所有葡萄酒信息?

先感谢您!!

0 投票
1 回答
75 浏览

python - Webscraping Python BeautifulSoup

I am coding a python code for fun which will find the lowest train ticket price in Eurostar. I am very new to BeautifoulSoup so I do not know much about it. For some reason, the code does not retrieve information from the "ul" tables when theoretically it should.

The code is the following:

The class input parser basically returns the URL based on the particular data:

My code should return the "ul" table linked to the "train-table" but it returns None. Any idea what I am doing wrong?

If you want to look at the source code the code gives the following URL: https://booking.eurostar.com/uk-en/train-search?origin=7015400&destination=8727100&adult=1&outbound-date=2021-10-08&inbound-date=2021-10-10

Thank you so much!

0 投票
0 回答
34 浏览

selenium - Web Scraping:从网页上的图表中悬停信息

我正在尝试在悬停信息中抓取信息,如您在图像中看到的那样,悬停信息是动态的,即信息“4.7K”、“6%”会随着鼠标悬停在不同的条上而改变。我正在使用硒来完成这项任务。 这是图片的链接:https://www.semrush.com/analytics/overview/?searchType=subdomain&q=https%3A%2F%2Fcreditcards.chase.com%2F