我想创建一个从其他网站提取信息并将其打印到我的网站的网站,我正在研究阶段,所以我想听听一些意见,这个项目的最佳解决方案是什么?
我听说使用解析器的 Python 可以做到这一点我只是想知道我应该走什么路径以及我应该使用哪种语言?
我想创建一个从其他网站提取信息并将其打印到我的网站的网站,我正在研究阶段,所以我想听听一些意见,这个项目的最佳解决方案是什么?
我听说使用解析器的 Python 可以做到这一点我只是想知道我应该走什么路径以及我应该使用哪种语言?
带有 BeautifulSoup 和 Urllib2 的 Python 可能会很好地为您服务。当然,您是否应该从其他网站抓取数据是值得怀疑的,如果这些网站更改布局,您可能会发现自己一直处于挣扎之中。
Requests就是为这类事情而设计的。
但是,在转义 HTML 之前,请检查网站是否提供 API。如果是这样,你已经在做生意了!
Python 具有出色的网络抓取功能:urllib、BeautifulSoup、XPath 等。此视频将帮助您快速开始使用 python 网络抓取:http ://www.youtube.com/watch?v= Ap_DlSrT-iE - 他正在使用 urllib 和 BeautifulSoup在他的示例脚本中抓取 huffingtonposts 的提要。
如果您想要一个抓取系统(带有 Web 前端和管理员的抓取器来发布您抓取的内容),这对您来说可能是一个不错的选择 - https://github.com/holgerd77/django-dynamic-scraper - 我会高度如果您已经熟悉 Django,建议您这样做。
您可以编写一些网络蜘蛛从其他网站收集一些数据。通过使用 urllib2 或 requests 可以帮助您从网站下载 html。Beautiful 或 PyQuery 可以帮助您解析 html 并获取您想要的数据。