我目前正在编写一个小型爬虫程序,试图获取网页并将它们编入索引。
我想知道网页是什么时候制作的或大约什么时候制作的。
例如,一个日期的新闻页面通常是在当天创建的。
如何准确获取日期?
一种天真的想法是从 HTML 中获取日期。通常,新闻或博客页面会在某处写下日期。但是由于 HTML 没有特定的标签,我怎样才能得到它呢?
尝试不同的可能日期格式?
任何人都可以给我一些建议吗?或者有没有我可以使用的图书馆?
谢谢
我目前正在编写一个小型爬虫程序,试图获取网页并将它们编入索引。
我想知道网页是什么时候制作的或大约什么时候制作的。
例如,一个日期的新闻页面通常是在当天创建的。
如何准确获取日期?
一种天真的想法是从 HTML 中获取日期。通常,新闻或博客页面会在某处写下日期。但是由于 HTML 没有特定的标签,我怎样才能得到它呢?
尝试不同的可能日期格式?
任何人都可以给我一些建议吗?或者有没有我可以使用的图书馆?
谢谢