问题标签 [web-scraping-language]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

67 问题

0 投票

3 回答

116 浏览

python - 每当我尝试导入时都没有名为 bs4 的模块

我正在尝试创建一个网络抓取程序，但每当我写：from bs4 import beautifulsoup，我总是得到错误：没有名为 bs4 的模块。我通过以下方式安装了 bs4：pip install beautifulsoup4和pip install bs4但没有任何效果。谢谢！

2021-10-03T19:45:18.140

0 投票

0 回答

19 浏览

python - 使用 Selenium 进行网页抓取（如何打印团队是在家还是离开？）

Stackoverflow 说我的代码格式不正确。当网络抓取 espn 时，我不确定如何在 Selenium 上描述主客场比赛。我希望我能提供一些代码，但我不断收到这些愚蠢的格式错误，不知道如何修复它们。我知道这是模糊的对不起。

python web-scraping-language

2021-10-10T15:47:28.000

0 投票

1 回答

72 浏览

python - 使用 Python 抓取网页而不加载整个页面

我刚刚开始使用 Python 进行一些网络抓取项目。我目前使用 lxml、Beautiful Soup 和 requests 模块来抓取网页。我需要知道是否有任何方法可以仅从网站获取我们需要的数据，而不是加载整个页面。requests 模块执行 GET 请求并接收整个 bs4、lxml 仅过滤数据。我尝试了 Selenium，但这也打开了不太适合工业项目的浏览器。我不知道刮擦和飞溅。

我也不是在寻找并非在任何地方都适用的 API 密钥方法。

python python-3.x web-scraping web-scraping-language

2021-11-13T11:39:23.277

0 投票

0 回答

49 浏览

python - 问题出在哪里 UnicodeEncodeError: 'charmap' codec can't encode character '\u011b' in position 69412: character maps to?

我得到了下一个错误：

PS：我已经尝试过使用encode =“utf-8”和“windows-1252”，但我总是遇到同样的错误

python web-scraping beautifulsoup web-scraping-language

2021-12-02T17:01:22.140

0 投票

1 回答

32 浏览

html - 我需要用 scrapy 和 python 抓取网页，但我无法解析地址以找到我想要提取的内容

我正在尝试使用 Jupyter 中的 Python 从工作提案页面获取数据，该页面是这样的： computrabajo 我已经设法使用指南获得了头衔、公司和资格，但是当我想获得提案的描述时，出现以下内容：终端我认为原因是因为我没有正确放置路由或以下代码中调用的任何内容（DESCRIPTION_SELECTOR AND extract_first()）：

描述这就是我想要得到的，如果我使用提取它会提取所有内容，但至少我知道可以提取

如果不是太麻烦，如果有人知道如何将我在 csv 中获得的那些记录保存为美丽的汤，那将对我有很大帮助。

html python-3.x scrapy web-scraping-language

2021-12-02T20:36:21.717

0 投票

1 回答

50 浏览