问题标签 [web-scraping-language]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 每当我尝试导入时都没有名为 bs4 的模块
我正在尝试创建一个网络抓取程序,但每当我写:from bs4 import beautifulsoup,我总是得到错误:没有名为 bs4 的模块。我通过以下方式安装了 bs4:pip install beautifulsoup4和pip install bs4但没有任何效果。谢谢!
python - 使用 Selenium 进行网页抓取(如何打印团队是在家还是离开?)
Stackoverflow 说我的代码格式不正确。当网络抓取 espn 时,我不确定如何在 Selenium 上描述主客场比赛。我希望我能提供一些代码,但我不断收到这些愚蠢的格式错误,不知道如何修复它们。我知道这是模糊的对不起。
python - 使用 Python 抓取网页而不加载整个页面
我刚刚开始使用 Python 进行一些网络抓取项目。我目前使用 lxml、Beautiful Soup 和 requests 模块来抓取网页。我需要知道是否有任何方法可以仅从网站获取我们需要的数据,而不是加载整个页面。requests 模块执行 GET 请求并接收整个 bs4、lxml 仅过滤数据。我尝试了 Selenium,但这也打开了不太适合工业项目的浏览器。我不知道刮擦和飞溅。
我也不是在寻找并非在任何地方都适用的 API 密钥方法。
python - 问题出在哪里 UnicodeEncodeError: 'charmap' codec can't encode character '\u011b' in position 69412: character maps to?
我得到了下一个错误:
PS:我已经尝试过使用encode =“utf-8”和“windows-1252”,但我总是遇到同样的错误
html - 我需要用 scrapy 和 python 抓取网页,但我无法解析地址以找到我想要提取的内容
我正在尝试使用 Jupyter 中的 Python 从工作提案页面获取数据,该页面是这样的: computrabajo 我已经设法使用指南获得了头衔、公司和资格,但是当我想获得提案的描述时,出现以下内容: 终端 我认为原因是因为我没有正确放置路由或以下代码中调用的任何内容(DESCRIPTION_SELECTOR AND extract_first()):
描述 这就是我想要得到的,如果我使用提取它会提取所有内容,但至少我知道可以提取
如果不是太麻烦,如果有人知道如何将我在 csv 中获得的那些记录保存为美丽的汤,那将对我有很大帮助。
selenium-webdriver - 蜘蛛关闭时没有错误消息并且不会刮掉分页中的所有页面(SELENIUM)
我创建了一个管道将所有抓取的数据放入 sqlite 数据库,但我的蜘蛛没有完成分页。这是蜘蛛关闭时我得到的。我应该得到大约 45k 的结果,而我只得到 420。为什么会这样?
这是我的蜘蛛:
这是否与我的 user_agent 明确相关,我已经将其分配给 settings.py 还是我被禁止访问此页面?网页的html也没有任何变化。
谢谢。
web-scraping - YouTube 订阅列表抓取
我试图将我的 youtube 订阅列表废弃到一个 csv 文件中。但是我在代码中间遇到了一个问题。这是我的代码:
我想知道为什么在 HTML 页面上找到“yt-formatted-string”时 vscode 无法识别它。此外,当我从 HTML 尝试另一个 div 时,此代码没有给出任何输出。
web-scraping - 网络图像抓取
我正在尝试删除下面 URL 中的所有照片,但是这段代码没有给出任何输出,为什么?
java - 使用 Java 进行网页抓取 - 部分提取
我在 Java 中开发了一个类来从网页中的表格中提取数据并在 csv 文件中报告,代码似乎可以工作,但不幸的是它只提取了前 10 条记录?有人有什么建议吗?
代码下方:
非常感谢。