python - 从网页中提取文本

Question

我正在尝试从此页面开始解析网页中的文本。此页面包含指向最终页面的链接（也可以手动将其移入文本文件；以避免额外的编码工作）。在左侧的最后一页有一个页面索引。并且每个页面也有一个页面索引。页面索引位于每页的顶部。从这个项目列表中，我只需要提取以“配置”、“配置示例”或“示例”开头的行。

手动执行此任务似乎很简单，但令人生畏且难以跟踪。如果可以从任何工具中提取此信息，该工具会在发现时以分层顺序对项目进行爬网和记录。可能是一些简单的格式，其中还包括超链接或至少与普通的制表符分隔的文本文件一样。

网页上的信息是公开的，可以下载。如果很难通过网络提取可能是我也可以尝试下载这些并尝试离线。

我尝试对此要求进行研究，并查看 LinksGrabber、WebParser、BeautifulSoup 或使用正则表达式解析文本可以进行调整。但我距离这个想法的实施还有几光年的时间。

这是我正在尝试的是否可以通过 Python 实现，或者在此问题上的现实主义方法是什么。

PS：我知道这是网络抓取，但我只是出于个人教育目的这样做，它不具有商业价值或任何关联。

score 1 · Accepted Answer

你应该试试Scrapy。在那里您可以设置模型，该模型将包含您想要从页面中获取的数据，例如

from scrapy.item import Item, Field

class Torrent(Item):
    url = Field()
    name = Field()
    description = Field()
    size = Field()

你可以编写一个爬取这些数据的蜘蛛。一目了然

1 回答 1