1

我目前正在编写一个小型爬虫程序,试图获取网页并将它们编入索引。

我想知道网页是什么时候制作的或大约什么时候制作的。

例如,一个日期的新闻页面通常是在当天创建的。

如何准确获取日期?

一种天真的想法是从 HTML 中获取日期。通常,新闻或博客页面会在某处写下日期。但是由于 HTML 没有特定的标签,我怎样才能得到它呢?

尝试不同的可能日期格式?

任何人都可以给我一些建议吗?或者有没有我可以使用的图书馆?

谢谢

4

0 回答 0