我们有大约 6000 万个压缩格式的网页。我们想单独解压缩和使用这些文件。
这是我的问题!
首先,如果我将它们解压缩到文件系统中,FS 会处理这么多文件吗?我的文件系统是 ext4。(我有 4 个不同的文件系统,所以我可以将它们之间的数据划分为每个文件系统的 15 M 页)
其次,将这些文件存储到关系数据库中会是更好的选择吗?假设清理 html 文本的所有麻烦都在将它们插入数据库之前完成。
谢谢,
我们有大约 6000 万个压缩格式的网页。我们想单独解压缩和使用这些文件。
这是我的问题!
首先,如果我将它们解压缩到文件系统中,FS 会处理这么多文件吗?我的文件系统是 ext4。(我有 4 个不同的文件系统,所以我可以将它们之间的数据划分为每个文件系统的 15 M 页)
其次,将这些文件存储到关系数据库中会是更好的选择吗?假设清理 html 文本的所有麻烦都在将它们插入数据库之前完成。
谢谢,
如果将它们提取到单个目录中,则可能会超过该文件夹中分配的最大索引。如果您将它们提取到多个目录中,您会更好。
6000 万绝对是一个公平的数字,如果您打算对它们进行任何索引或搜索,那么数据库将是您的最佳选择,您可以使用类似的方法对文件进行索引,lucene
这完全取决于您想要对文件执行的操作之后它们已被提取。
我目前在大型用户网站上的图像有类似的问题,我解决这个问题的方法是给每个图像一个 GUID,并为 guid 中的每个字节分配它到不同的目录,然后是子目录下的下一个字节(减少到 8 个字节)如果我的填充率上升,我将创建更多的子目录来补偿,这也意味着我可以将它分布在不同的网络存储盒中。