我正在尝试从此页面开始解析网页中的文本。此页面包含指向最终页面的链接(也可以手动将其移入文本文件;以避免额外的编码工作)。在左侧的最后一页有一个页面索引。并且每个页面也有一个页面索引。页面索引位于每页的顶部。从这个项目列表中,我只需要提取以“配置”、“配置示例”或“示例”开头的行。
手动执行此任务似乎很简单,但令人生畏且难以跟踪。如果可以从任何工具中提取此信息,该工具会在发现时以分层顺序对项目进行爬网和记录。可能是一些简单的格式,其中还包括超链接或至少与普通的制表符分隔的文本文件一样。
网页上的信息是公开的,可以下载。如果很难通过网络提取可能是我也可以尝试下载这些并尝试离线。
我尝试对此要求进行研究,并查看 LinksGrabber、WebParser、BeautifulSoup 或使用正则表达式解析文本可以进行调整。但我距离这个想法的实施还有几光年的时间。
这是我正在尝试的是否可以通过 Python 实现,或者在此问题上的现实主义方法是什么。
PS:我知道这是网络抓取,但我只是出于个人教育目的这样做,它不具有商业价值或任何关联。