Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
获取页面标题与某些关键字匹配的维基百科主要文章页面的所有 HTML 表格的最佳编程方式是什么?然后我想把列名和表数据放入数据库。
还将获取 URL 和页面名称以进行归属。
我不需要细节,也许只是一些推荐的方法或一些教程的链接。
解决这个问题的简单方法是根本不抓取维基百科网站。构成维基百科的所有数据、元数据和相关媒体都以结构化格式提供;所以排除任何需要抓取他们的网页。
要将 Wikipedia 中的数据获取到您的数据库中(然后您可以对其进行搜索、切片和切块,直到您满意为止):
原始文章的 URL 应该可以很容易地从页面标题重新构建。