mysql - 存储 HTML 文件

Question

我们有大约 6000 万个压缩格式的网页。我们想单独解压缩和使用这些文件。

这是我的问题！

首先，如果我将它们解压缩到文件系统中，FS 会处理这么多文件吗？我的文件系统是 ext4。（我有 4 个不同的文件系统，所以我可以将它们之间的数据划分为每个文件系统的 15 M 页）

其次，将这些文件存储到关系数据库中会是更好的选择吗？假设清理 html 文本的所有麻烦都在将它们插入数据库之前完成。

谢谢，

score 0 · Accepted Answer

如果将它们提取到单个目录中，则可能会超过该文件夹中分配的最大索引。如果您将它们提取到多个目录中，您会更好。

6000 万绝对是一个公平的数字，如果您打算对它们进行任何索引或搜索，那么数据库将是您的最佳选择，您可以使用类似的方法对文件进行索引，lucene这完全取决于您想要对文件执行的操作之后它们已被提取。

我目前在大型用户网站上的图像有类似的问题，我解决这个问题的方法是给每个图像一个 GUID，并为 guid 中的每个字节分配它到不同的目录，然后是子目录下的下一个字节（减少到 8 个字节）如果我的填充率上升，我将创建更多的子目录来补偿，这也意味着我可以将它分布在不同的网络存储盒中。

1 回答 1