0

我正在尝试从此页面开始解析网页中的文本。此页面包含指向最终页面的链接(也可以手动将其移入文本文件;以避免额外的编码工作)。在左侧的最后一页有一个页面索引。并且每个页面也有一个页面索引。页面索引位于每页的顶部。从这个项目列表中,我只需要提取以“配置”、“配置示例”或“示例”开头的行。

手动执行此任务似乎很简单,但令人生畏且难以跟踪。如果可以从任何工具中提取此信息,该工具会在发现时以分层顺序对项目进行爬网和记录。可能是一些简单的格式,其中还包括超链接或至少与普通的制表符分隔的文本文件一样。

网页上的信息是公开的,可以下载。如果很难通过网络提取可能是我也可以尝试下载这些并尝试离线。

我尝试对此要求进行研究,并查看 LinksGrabber、WebParser、BeautifulSoup 或使用正则表达式解析文本可以进行调整。但我距离这个想法的实施还有几光年的时间。

这是我正在尝试的是否可以通过 Python 实现,或者在此问题上的现实主义方法是什么。

PS:我知道这是网络抓取,但我只是出于个人教育目的这样做,它不具有商业价值或任何关联。

4

1 回答 1

1

你应该试试Scrapy。在那里您可以设置模型,该模型将包含您想要从页面中获取的数据,例如

from scrapy.item import Item, Field

class Torrent(Item):
    url = Field()
    name = Field()
    description = Field()
    size = Field()

你可以编写一个爬取这些数据的蜘蛛。一目了然

于 2012-09-08T11:36:47.247 回答