我有一个维基百科文章列表(我自己的浏览器中的历史)。我想通过为每个内部维基百科超链接画一条线来绘制我在维基百科上的访问树。为了获得好的结果,我想用文章的名称来表示每个节点,并且对于正文中至少有一个图像的文章,从文章中提取的图像。
哪个图像是最佳候选?我注意到有时会有一个名为 thumbimage 的图像,但并非总是如此。
我有一个维基百科文章列表(我自己的浏览器中的历史)。我想通过为每个内部维基百科超链接画一条线来绘制我在维基百科上的访问树。为了获得好的结果,我想用文章的名称来表示每个节点,并且对于正文中至少有一个图像的文章,从文章中提取的图像。
哪个图像是最佳候选?我注意到有时会有一个名为 thumbimage 的图像,但并非总是如此。
查看 DBPedia 图像数据集:
http://wiki.dbpedia.org/Downloads38#h227-1
他们为许多文章选择了具有代表性的图像。他们并不经常更新(我认为最新的是从 2012 年 6 月开始,所以在我写这篇文章时是 4 个月前),但他们做得非常好,如果你需要更多最新的,你可以使用他们的代码库来解析自己数据。
我有过类似的经历,试图从特定页面抓取相关图像。在我的例子中,我使用了 og:image 属性。
你可以在这里阅读更多信息:http: //ogp.me/
另一种方法是使用 HTML 或 wikimedia 标记自行将图像解析出页面。我建议拍摄信息框图像(如果有的话),如果没有,则使用页面上的第一张图像。