问题标签 [web-scraping-language]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在网页抓取中使用 br 标签以获得更好的输出?
我正在尝试抓取此站点链接。我正在尝试抓取这个特定的部分,请在下面找到 HTML:
输出是这样的:
ABDULLA SALEM CONTRACTING ESTBuilding ContractorsP.O. Box: 200Location: Umm Al Quwain电话:06-7655445
我怎样才能得到它:
- 阿布杜拉塞勒姆合同 EST
- 建筑承包商
- 邮政信箱:200
- 地点:乌姆盖万
- 电话:06-7655445
python - 未知目标文本大小的文本摘要
我在 python3 中使用 Tensorflow keras 库进行未知文本大小的文本摘要。
我正在使用此链接中的代码说明进行文本摘要。但看起来代码为要汇总的输入文本的最大大小设置了值,因为它已经知道要汇总的文本大小。但如果我不知道怎么办?我的意思是,如果我必须对许多我不知道它们总大小的文本进行摘要?
错误文本太长,所以我没有成功找到与我的案例相关的内容。
所以错误是:
indices[0,0] = 30 不在 [0, 13) [[node model_2/embedding_1/embedding_lookup (定义在 C:\Users\f_pc\Desktop\class_python.py:314)]] [Op:__inference_predict_function_19765]
错误可能源于输入操作。连接到节点 model_2/embedding_1/embedding_lookup 的输入源操作:model_2/embedding_1/embedding_lookup/19252(定义在 D:\obj\windows-release\37amd64_Release\msi_python\zip_amd64\contextlib.py:112)
函数调用栈:predict_function
我也在尝试
但是加起来这个大小,分析时间增加了,但也有
r - 对于抓取数据,您如何导航到您创建的链接?那么,如何从新页面中抓取数据?
这是我创建的示例代码。我已经能够创建一个新链接,但我很困惑如何跟随链接并从跟随的链接中抓取数据。
我如何跟踪合并的链接并从新页面中抓取数据,是否可以在不使用函数的情况下做到这一点?
python - 从 YouTube 频道的频道的所有视频中提取数据
我可以使用哪个库从 youtube 中抓取所有上述列数据
特定频道上的所有视频
就像我可以使用频道中的全部播放按钮来播放列表中的所有视频并开始从特定频道中抓取所有信息
有什么建议吗??
python - 进入 403 页面时的网页抓取
我是网络抓取的初学者,需要使用 Beautifulsoup抓取https://mirror-h.org/archive/page/1 。但它给出了一个错误并转到 403 页面。我该如何解决这个问题?我真的很感谢你的帮助。
这是我的代码:
我得到的错误是:
python - MissingSchema:无效的 URL 'h':未提供架构。也许你的意思是 http://h?
我一直在尝试从 google 中抓取不同公司名称的地址和电话号码,当我提供 URL 时,我的代码可以正常工作,它会获取所需的信息。但是当我尝试循环时,我得到了以下错误。
但相同的 URL 可以正常工作,如下所示!
这是在循环时引发错误的代码
python - 来自 Vivino.com 的数据抓取 - 葡萄酒信息和评论
为了写我的硕士论文,我需要收集数据。现在,我想从 Vivino.com 收集数据,但我没有任何网络抓取经验。我已经看到了一些关于此的问题,但我想收集有关葡萄酒的所有信息(名称、国家、评级、描述、价格等)和葡萄酒的评论。
使用此代码,我可以收集 ['Winery' 'Wine' 'Rating' 'num_review']
使用以下代码,我可以收集评论:
有人可以帮我如何结合所有这些信息吗?那么,包括相应评论在内的所有葡萄酒信息?
先感谢您!!
python - Webscraping Python BeautifulSoup
I am coding a python code for fun which will find the lowest train ticket price in Eurostar. I am very new to BeautifoulSoup so I do not know much about it. For some reason, the code does not retrieve information from the "ul" tables when theoretically it should.
The code is the following:
The class input parser basically returns the URL based on the particular data:
My code should return the "ul" table linked to the "train-table" but it returns None. Any idea what I am doing wrong?
If you want to look at the source code the code gives the following URL: https://booking.eurostar.com/uk-en/train-search?origin=7015400&destination=8727100&adult=1&outbound-date=2021-10-08&inbound-date=2021-10-10
Thank you so much!