我正在尝试制作一个小型新闻爬虫。经过多次尝试,我得到了一切工作。
问题是大约每个 HTML 新闻页面都有超过 50 张图片。
他们中的许多人都太小了。所以,我只是通过检查大小来过滤它们。只会拍摄大于 200x200 的图像。
但是一个页面上有很多图像,它们很大。有些新闻文章没有任何相关图片。
让我们举个例子 - 链接到新闻 - http://timesofindia.indiatimes.com/india/Over-9-3-lakh-TB-patients-in-India-undetected-Report/articleshow/24600851.cms
我的代码得到了这张图片 - 图片编号。0 http://timesofindia.indiatimes.com/photo/10905539.cms 图像高度 - 300 图像宽度 - 450
但是这个图像对图像主题毫无用处。简而言之“如何动态获得正确的图像”
我不想为每个网站制作代码。空白图像比错误图像更好。