当我运行 Python 代码时
import newspaper
print(len(newspaper.build('http://cnn.com', memoize_articles=False).articles))
exit()
在 Python 3 中,我得到输出 897(即,报纸 3k 发现 897 页被认为是域http://cnn.com上的文章),但是当我运行时
import newspaper
print(len(newspaper.build('http://www.cnn.com', memoize_articles=False).articles))
exit()
(即,有一个额外的www.
;没有其他任何改变)我只得到 895。当我在这两个 URL 之间来回切换时,这些数字是一致的。www.
URL中的实际重要吗?如果是这样,为什么在使用报纸 3k 库时,这两个 URL 的文章计数变得如此相似?否则,为什么文章数不完全相同?