给定 n 个原始 URL,我希望能够按以下方式对它们进行分类:新闻、博客、照片和视频。
一个例子是,如果一个链接将用户定向到一张照片,是否足以说原始链接包含图像的文件扩展名以便能够将原始 URL 分类为照片?
至于视频、博客和新闻,似乎只有一组可以对原始 URL 进行分类的域(例如http://www.youtube.com )是不够的。
可以通过检查网页内容来进行分类吗?或者是否有任何开源工具可以做到这一点?
给定 n 个原始 URL,我希望能够按以下方式对它们进行分类:新闻、博客、照片和视频。
一个例子是,如果一个链接将用户定向到一张照片,是否足以说原始链接包含图像的文件扩展名以便能够将原始 URL 分类为照片?
至于视频、博客和新闻,似乎只有一组可以对原始 URL 进行分类的域(例如http://www.youtube.com )是不够的。
可以通过检查网页内容来进行分类吗?或者是否有任何开源工具可以做到这一点?
唯一可能被可靠分类的 URL 是那些指向不同媒体的 URL(即http://foo.com/foo.jpg肯定是图像)。否则,您必须分析页面的内容。
这可能有点棘手,因为 Flash 可能包含照片、视频或两者都不包含,而没有提供任何关于 Flash 对象内容的可搜索线索。只要付出足够的努力,这显然可以克服(谷歌做到了!),但我不知道有任何开源资源提供媒体相关域的库。这些数据是程序员无数小时努力的结果——这种努力通常是为了寻求投资回报 (ROI)。例如,ClueWeb09只是下载页面的数据集,用于测试搜索算法——没有真正排序或分类。
“有时没有帮助就是答案。”