1

我正在尝试为彭博商业周刊创建一个 XML 站点地图,特别是所有以以下开头的页面:

http://investing.businessweek.com/research/stocks/private/snapshot.asp?privcapId=

据我了解,大约有 150 万页以该前缀开头。甚至可以为这么多页面创建 XML 站点地图吗?

4

1 回答 1

1

对的,这是可能的。这只是编写爬虫(如果您无权访问包含内容的数据库)和生成 xml 文件的问题。(不要使用基于 DOM 的 XML api,因为大文件会消耗内存)。

但是你想用最小100 MB大小的文件做什么[1]。

我认为这个文件根本没有帮助。

1)说明:

1.500.000 pages * (length of URL + 100 Bytes XML overhead)
于 2013-08-15T21:34:46.407 回答