问题标签 [yellow-pages]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1244 浏览

python - 如何捕获 requests.get() 异常

我正在为 Yellowpages.com 开发一个网络爬虫,总体上看起来运行良好。但是,在遍历长查询的分页时,requests.get(url) 将随机返回<Response [503]>or <Response [404]>。偶尔,我会收到更糟糕的例外情况,例如:

requests.exceptions.ConnectionError: HTTPConnectionPool(host='www.yellowpages.com', port=80): 最大重试次数超出了 url: /search?search_terms=florists&geo_location_terms=FL&page=22 (由 NewConnectionError(': 无法建立新连接:[WinError 10053] 已建立的连接被主机中的软件中止',))

使用 time.sleep() 似乎可以消除 503 错误,但 404 和异常仍然是问题。

我试图弄清楚如何“捕捉”各种响应,以便我可以进行更改(等待、更改代理、更改用户代理)并重试和/或继续。伪代码是这样的:

在这一点上,我什至无法使用以下方法捕获问题:

我从github及以下开始的完整代码:

提前感谢您花时间阅读这篇长篇文章/回复:)

0 投票
0 回答
1177 浏览

angular - Angular2 CORS API 获取

我正在尝试使用Yellow Pages 公开的 API。当我使用 Postman 连接时,我会收到有效的 JSON 或 XML。但是,正如许多其他 StackOverflow 帖子中所述,当通过我的 Angular2 应用程序提交时,浏览器会返回 CORS 错误,这是预期的行为/结果。

根据下面显示的测试,我假设公开 API 的服务器没有启用 CORS 或 JsonP。

  1. 如果是这样,这个 API 应该如何在应用程序中使用?
  2. 为什么测试版本 2 返回正确的 XML 和状态代码 200 但仍然失败并出现异常?有没有办法让我防止异常,以便我可以处理我看到在 Chrome DevTools 的网络选项卡中返回的 XML?

更新:我忘了提到我还尝试&callback=JSONP_CALLBACK在版本 2 中附加到我的连接字符串。

版本 1 (XML):

错误:

回报:

版本 2 (JsonP):

错误:

回报:

版本 3(Json):

错误:

回报:

版本 4(没有 CORS 标头的 Json):

错误:

0 投票
1 回答
149 浏览

scrapy - 需要帮助黄页蜘蛛

我是scrapy的新手,到目前为止我已经能够创建一些蜘蛛。我想写一个爬取黄页的蜘蛛,寻找有 404 响应的网站,蜘蛛工作正常,但是分页不起作用。任何帮助都感激不尽。提前致谢

0 投票
2 回答
565 浏览

python - Python 中的 Yellow Pages Scraper 停止工作

我正在尝试从黄页中抓取数据。我已经成功使用过这个刮刀几次,但它最近停止工作了。我注意到黄页网站最近发生了变化,他们添加了一个包含三个结果的赞助商链接表。由于这一变化,我的爬虫唯一能找到的就是这个赞助商链接表下方的广告。它不检索任何结果。

我在哪里错了?

我在下面包含了我的代码。例如,它显示了对威斯康星州 711 个地点的搜索。

0 投票
1 回答
219 浏览

python - 刮黄页

我正在尝试从people.yellowpages.com 抓取数据,我只需要电子邮件、电话、地址。我最近一直在编写此代码,它适用于与业务相关的组织。但是在搜索人员数据时它不起作用。任何人都可以帮助我解决我在这里做错了什么。

注意:我需要从people.yellowpages.com 抓取人员数据。当我尝试运行程序时,它会通过 for 循环然后出错。

0 投票
1 回答
65 浏览

python - Python中的黄页刮板不起作用

我正在尝试从黄页中抓取数据。我多次使用这个刮刀,但它最近停止了。

收到此错误

'NoneType' object has no attribute 'group' 0 results found

谁能帮我解决这个问题

我在哪里错了?

0 投票
2 回答
392 浏览

python - Python——用beautifulsoup对“展开”按钮中的内容进行网页抓取

我正在刮一张黄页,以获取城市中所有物理治疗师的姓名。通过 url,我得到了 50 名物理治疗师的列表,但是,当我展开页面时,url 并没有改变。如何获得完整的姓名列表?

这就是我获得罗斯托克市物理治疗师名单的方式。

在网址的底部有一个名为 的按钮Mehr Anzeigen,基本上是说“显示更多”。如果我点击那里,物理治疗师的条目数量将从 50 变为 60。有 90 名物理治疗师的参赛作品。当我多次单击该按钮并显示所有条目时,该按钮消失了。这列出了城里所有的理疗师,我想要这个。

单击“显示更多”后如何获取所有条目?

0 投票
1 回答
21 浏览

python - 从网站抓取数据

我尝试使用 BeauitfulSoup 从网站上抓取一些数据,我已经成功地抓取了一些数据,其他一些数据(例如电话、网站)我收到了这些数据的错误。

https://yellowpages.com.eg/en/search/spas/3231 这是我尝试抓取的网站的链接。

每次我运行此代码时,结果都没有。