问题标签 [craigslist]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy spider 无法抓取 url 但 scrapy shell 成功完成
我正在尝试抓取craiglist。当我尝试在蜘蛛中获取 https://tampa.craigslist.org/search/jjj?query=bookkeeper时,出现以下错误:
(为了便于阅读,添加了额外的换行符和空格)
但是,当我尝试在scrapy shell上抓取它时,它被成功抓取了。
我不知道我在这里做错了什么。我曾尝试强制使用 TLSv1.2,但没有运气。我将衷心感谢您的帮助。谢谢!
java - 如何从返回 HTML 的 URL 返回 JSON 响应
首先,一些背景:-我正在尝试解决最近面试官提出的一个问题。我必须编写代码并使用下面的 URL 来返回 JSON 响应 - https://losangeles.craigslist.org/
这就是我所做的:- 1)我创建了一个 Web 客户端并发出 HTTPURL 请求以获取 HTTP 响应。
2) 以下是将响应转换为 JSON 的函数:-
我收到的响应是整个 HTML 页面(我使用邮递员提出请求)。因为,我只有几个小时来解决这个问题并且不知道如何解析整个 HTML,所以我最终使用了一个名为 JSoup 的第三方库。我对此不是 100% 满意,但最终别无选择。
我没有收到他们的回复,我很好奇这是否是最糟糕的方法,如果是,还有什么更好的选择?他们没有提到我可以使用什么技术。但是,由于我面试的技能集涉及 Java/J2EE,我正在考虑用 Java 来实现它(虽然不使用 Node js)谢谢!
python - 如何从此元素标签中获取价格、标题和链接?
这是 Craigslist 中搜索项目的导出元素标签。
我正在使用 BeautifulSoup 和 Python。
如何获得隐藏在下面的 3 个项目?1.) 2 BED/1 BATH CONDO 单元,布局绝佳 2.) https://vancouver.craigslist.ca/rch/apa/d/2-bed-1-bath-condo-unit-with/6682563732.html 3 .) 1400 美元
python - 从 Craigslist 抓取图像时出现连接错误
作为从 Craigslist 抓取数据的项目的一部分,我包括图像抓取。我在测试中注意到有时连接被拒绝。有没有办法解决这个问题,还是我需要在我的代码中加入错误捕获?我记得 twitter API 限制了查询,因此包含了一个睡眠计时器。好奇我是否与 Craigslist 有同样的情况。请参阅下面的代码和错误。
ConnectionError: HTTPSConnectionPool(host='images.craigslist.org', port=443): Max retries exceeded with url: /00707_fbsCmug4hfR_600x450.jpg (由 NewConnectionError 引起(':无法建立新连接:[WinError 10061] 无法连接)因为目标机器主动拒绝它而被制造',))
我对这种行为有 2 个问题。
CL 服务器是否有任何规则或协议,例如在特定时间范围内阻止第 n 个请求?
有没有办法在连接被拒绝后暂停循环?还是我只是合并错误捕获以使其不会停止我的程序?
python-3.x - 用 python 爬行 Craiglisht(不是 Scrapy)
我正在尝试使用 python 抓取 Craglist 作业(我没有使用scrapy)任何人都可以在下面的代码中解决吗?请不要谈论scrapy
这是网址:https ://chicago.craigslist.org/
起初我正在提取工作类别,然后是工作列表,然后是工作详细信息,还编写了抓取下一页的代码。
python - BeautifulSoup 和 Craiglist - 无法获取具有相同属性和结构的数据
我在抓取下面的 HTML 时遇到了麻烦,因为所有信息都存储在一个没有太大区别的结构中。
我想要一个地方来检索包含在具有 text = 'VIN:' 的 span 标签中的 b 标签,以及包含在具有 text = 'odometer:' 的 span 标签中的 b 标签,等等。
我尝试了以下变体但无济于事:
&
&
这些字段是动态的,因此结构可以改变。例如,另一个列表可能没有里程表信息或燃料选项,因此将其分解为列表并按索引获取特定信息将不一致。
我如何成功地做到这一点?
python - 用 BeautifulSoup 抓取 Craiglist 并在每个帖子中获取第一张图片
我目前正在尝试从 craigslist 中抓取航空数据。除了每个帖子的第一张图片之外,我可以毫无问题地获取我想要的所有信息。这是我的链接:
https://spokane.craigslist.org/search/avo?hasPic=1
由于此站点上的不同帖子,我已经能够获得所有图像,但我无法弄清楚如何仅获得第一张图像。
我正在使用 bs4 并请求此脚本。这是我到目前为止获得的每张图片:
任何帮助是极大的赞赏。
提前致谢,
因泽尔
python - 如何在发送消息之前将列表元素与数据库列表进行比较?
我创建了一个脚本,它为特定列表抓取 craiglist,根据标题、图像链接和列表 href 创建一个列表。从那里我使用 twilio 向自己发送一条包含数据的短信。这一切都很好,但我希望能够将列表保存到文件中,然后将新数据与文件进行比较,并且只有在有新信息时才给我发短信。我很难用正确的方法来解决这个问题。
我相信这是人们一直在做的事情,但我没有找到正确的信息来让它在概念上为我点击。
python - 用 Beautifulsoup 抓取 Craigslist 位置或城市的更好方法是什么?
我真的是 Python 的新手,从昨天开始我就尝试使用 Beautifulsoup抓取craigslist 帖子的位置(城市或 googlemap 信息)。
我尝试了一种在网站上找到的方法: Using Beautiful Soup to get data from non-class section
但是当我使用时:
我NameError: name 'addressText' is not defined
在最后一行,我不明白为什么。
如果有人可以提供帮助或提供其他解决方案,我将不胜感激,
非常感谢,
php - POST 请求在 POSTMAN 上工作,但不在 PHP 中
我需要发布并获取回复电子邮件的内容。
链接- https://sacramento.craigslist.org/cto/d/north-highlands-2005-toyota-tacoma-4x4/7102315098.html
在这个链接中会有回复按钮。当您输入按钮时,将发送一个 XHR 请求,其中包含名为browserinfo3
. 他们在内部发送浏览器特定的数据。但是我已经在 POSTMAN中尝试了没有任何参数的请求。刚刚将请求类型更改为POST,结果已经成功返回。现在我使用 Guzzle 在 PHP 中编写了相同的脚本。尝试了很多方法,但没有成功。它总是返回 404 请求。你能告诉我如何正确发布以获得成功的请求吗?