python - 使用python抓取没有唯一标识符的html

Question

我想设计一种使用 python 的算法，它可以像这个和这个一样抓取数千个页面，收集所有数据并将其插入 MySQL 数据库。该脚本将每周或每两周运行一次，以更新添加到每个单独页面的任何新信息的数据库。

理想情况下，我想要一个易于使用的刮板，用于表结构化数据以及没有唯一标识符的数据（即 id 和 classes 属性）。

我应该使用哪个刮板插件？BeautifulSoup、Scrapy还是机械化？

是否有任何特定的教程/书籍我应该寻找这个期望的结果？

从长远来看，我将实现一个通过查询数据库来处理所有这些数据的移动应用程序。

score 1 · Accepted Answer

第一个念头：（为了节省一些时间）你见过返程机吗？ http://archive.org/web/

第二个想法：如果你要开发一个移动应用程序，那么这个网站的布局并不适合轻松放在手持设备上。我建议不要打扰这个网页部分。您最终将不得不挖掘所有信息，并在每次他们更改其网站上的一些小东西时更改您的抓取工具。

您可以从他们的开发人员 API以 Json 或 CSV 格式获取数据。

从原始数据中，您可以将其制成您想要的任何格式。（仅根据他们的网站供个人使用）

注意事项：注意网站上的 robots.txt 文件。 http://www.robotstxt.org/robotstxt.html

如果他们不想被报废，他们会告诉你的。您可以这样做以供个人使用，但如果您尝试从他们的内容中赚钱，您会发现自己被起诉了。

score 0 · Accepted Answer

您可以使用lxml，它可以采用XPath说明符。习惯 XPath 语法需要一段时间，但在这种情况下它很有用。

2 回答 2