7

我通读了很多 Azure Table/Blob/SQL 存储之间的比较,我认为我对所有这些都有很好的理解......但是,我仍然不确定在哪里可以满足我的特定需求。也许有人在类似情况下有经验并且能够提出建议。

我有的

一个 SQL Azure DB,它在 varchar(max) 列中以原始 HTML 格式存储文章。每行还有许多元数据列和许多索引,以便于查询。该表包含对用户、订阅、标签等的许多引用 - 因此我的项目始终需要 SQL 数据库。

有什么问题

我在这个表中已经有大约 500,000 篇文章,我预计它会以每年数百万篇的速度增长。每篇文章的 HTML 内容可以在几 KB 到 1 MB 之间,或者在极少数情况下大于 1 MB。

出现了两个问题:由于 Azure SQL 存储很昂贵,所以我会在存储它的成本上向自己开枪。此外,我也会更早地达到 150 GB 的数据库大小限制。这 500,000 篇文章现在已经消耗了 1.6 GB 的数据库空间。

我想要的是

很明显,这些 HTML 内容必须从 SQL DB 中取出。虽然文章表本身必须保留以将其加入用户、订阅、标签等以快速发现所需文章的关系,但至少可以将保存 HTML 内容的列外包给更便宜的存储。

乍一看,Azure Table 存储似乎是完美的选择

在一个大表中以非常便宜的价格和快速查询存储数 TB 的数据 - 拥有一个保存文章内容的单个表存储表作为 SQL DB 的附加组件听起来很完美。

但是阅读这里的比较表明它甚至可能不是一个选择:每列 64 KB 足以容纳我 98% 的文章,但是对于一些单篇文章,甚至整个 1 MB 的行限制可能还剩下 2%还不够。

Blob 存储听起来完全错误,但是......

因此,Azure 左侧只有一个选项:Blob。现在,它可能并不像听起来那么错误。在大多数情况下,我一次只需要一篇文章的内容。这应该与 Blob 存储一起工作得很好且足够快。

但我也有查询,我一次需要 50、100 甚至更多行,甚至包括内容。所以我必须运行 SQL 查询来获取所需的文章,然后从 Blob 存储中获取每篇文章。我没有这方面的经验,但我不敢相信在这样做时我能够保持毫秒时间跨度的查询。对于我的项目来说,需要几秒钟的查询是绝对不行的。

所以它似乎也不是一个合适的解决方案。

我看起来像一个有计划的人吗?

至少我有一个类似的计划。我考虑只将适当的记录“导出”到 SQL 表存储和/或 Blob 存储中。

类似于“只要内容小于 64 KB 就将其导出到表存储中,否则将其保存在 SQL 表中(或者甚至将这条 XL 记录导出到 BLOB 存储中)”

这可能工作得很好。但这使事情变得复杂,并且可能不必要地容易出错。

那些其他选项

还有一些其他 NoSQL DB,如 MongoDB 和 CouchDB,似乎更适合我的需求(至少从我天真的观点来看,作为一个刚刚阅读纸上规范的人,我没有使用它们的经验)。但是他们需要自托管,如果可能的话,我想摆脱它。在自托管服务器和服务方面,我在 Azure 上做的事情尽可能少。

你真的读到这里了吗?

然后非常感谢您宝贵的时间和思考我的问题:)

任何建议将不胜感激。如您所见,我有自己的想法和计划,但没有什么比以前走在路上的人的经验更好了:)

谢谢,伯恩哈德

4

8 回答 8

7

我注册只是为了帮助解决这个问题。过去,我从 Stackoverflow 找到了对我的问题有用的答案——谢谢社区——所以我认为尝试用这个问题回馈一些东西是公平的(也许公平是轻描淡写),因为它落在我的小巷里.

简而言之,在考虑问题中所述的所有因素时,表存储可能是最佳选择 - 如果您可以正确估计每月的交易:关于此的一篇不错的文章。您可以通过拆分(纯文本方法或序列化)文档/html/数据来解决您提到的两个限制,行和列限制。从存储在 Table Storage 中的 40 GB 以上数据的经验来看,我们的应用程序经常在每次访问页面时以毫秒为单位检索超过 10 行 - 这里没有争议!如果您有时需要 50 多行,您正在查看较低的个位数秒数,或者您可以并行执行它们(并进一步通过将数据拆分到不同的分区中),或者以某种异步方式。或者,阅读下面建议的多级缓存。

更详细一点。我尝试使用 SQL Azure、Blob(页和块)和表存储。我不能代表 Mongo DB,部分原因是这里已经提到,我不想走那条路。

  • 表存储速度快;在使用分区和行键查询时,在 20-50 毫秒的范围内,有时甚至更快(取决于,例如在同一个数据中心,我看到它低至 10 毫秒)。您还可以根据您的数据和您对它的了解以某种方式进一步拥有多个分区。
  • 就 GB 而不是事务而言,它可以更好地扩展
  • 您提到的行和列限制是一种负担,同意,但不是阻碍。我已经编写了我自己的拆分实体的解决方案,你可以很容易,或者你可以看到这个已经编写好的解决方案(不能解决整个问题,但它是一个好的开始):https ://code.google.com/ p/lokad-cloud/wiki/FatEntities
  • 还需要记住,将数据上传到表存储非常耗时,即使由于其他限制(即请求大小小于 4 MB、上传带宽等)而对实体进行批处理也是如此。

但仅使用 TableStorage 可能不是最好的解决方案(考虑增长和经济)。我们最终实施的最佳解决方案使用了多级缓存/存储,从静态类、Azure 基于角色的缓存、表存储和块 Blob 开始。为了便于阅读,我们分别称其为 1A、1B、2 和 3 级。使用这种方法,我们使用的是中型单实例(2 个 CPU 内核和 3.5 GB 内存——我的笔记本电脑有更好的性能),并且能够在几秒钟内处理/查询/排序 100GB 以上的数据(95% 的案例在 1 秒内)。我相信这是相当令人印象深刻的,因为我们检查了所有显示之前的“文章”(4+ 百万“文章”)。首先,这很棘手,在您的情况下可能会也可能不会。我对数据及其查询/处理用法没有足够的了解,但如果你能找到一种方法来很好地组织数据,这可能是理想的。我会做一个假设:听起来你正在尝试搜索并找到相关文章,给出一些关于用户和一些标签的信息(也许是新闻聚合器的变体,只是对此有预感)。这个假设是为了说明这个建议,所以即使不正确,我希望它能帮助你或引发关于如何采用它的新想法。

1A 级数据。 在静态类中识别和添加关键实体或其属性(定期,取决于您如何预见更新)。假设我们识别用户偏好(例如,人口统计和兴趣等)和标签(技术、政治、体育等)。这将用于快速检索用户是谁、他/她的偏好和任何标签。将这些视为键/值对;例如 key 是一个标签,它的 value 是一个文章 ID 的列表,或者它的一个范围。这解决了一个小问题,那就是:给定一组键(用户首选项、标签等)我们对哪些文章感兴趣!如果组织得当,这些数据应该很小(例如,您只能存储一个数字,而不是存储文章路径)。*注意:静态类中数据持久性的问题是 Azure 中的应用程序池默认情况下每 20 分钟左右不活动时重置一次,因此静态类中的数据不再持久 - 也跨实例共享它们(如果你有超过 1) 可以成为一个负担。欢迎 1B 级救援。

Leval 1B 数据 我们使用的一个解决方案是将 1A 层数据保存在 Azure 缓存中,其唯一目的是在需要时重新填充静态实体。1B 级数据解决了这个问题。此外,如果您遇到应用程序池重置时间问题,您可以通过编程方式进行更改。所以级别 1A 和 1B 具有相同的数据,但一个比另一个快(足够接近的类比:CPU 缓存和 RAM)。

稍微讨论 1A 和 1B 级别 有人可能会指出,使用静态类和缓存是一种过度杀伤力,因为它使用更多内存。但是,我们在实践中发现的问题是,首先静态速度更快。其次,在缓存中存在一些限制(即,每个对象 8 MB)。对于大数据,这是一个很小的限制。通过将数据保存在静态类中,可以拥有大于 8 MB 的对象,并通过拆分它们将它们存储在缓存中(即,目前我们有超过 40 个拆分)。顺便说一句,请投票以在 azure 的下一个版本中增加此限制,谢谢!这是链接:www.mygreatwindowsazureidea.com/forums/34192-windows-azure-feature-voting/suggestions/3223557-azure-preview-cache-increase-max-item-size

2 级数据 一旦我们从键/值实体(1A 级)获得值,我们就使用该值来检索表存储中的数据。该值应该告诉您您需要什么分区和行键。这里要解决的问题:您只查询与用户/搜索上下文相关的那些行。正如您现在所看到的,拥有 1A 级数据是为了最大限度地减少从表存储中查询行。

3 级数据 表存储数据可以包含您的文章的摘要、第一段或类似性质的内容。当需要显示整篇文章时,您将从 Blob 获得。表存储,还应该有一列唯一标识blob中的整篇文章。在 blob 中,您可以按以下方式组织数据:

  1. 将每篇文章拆分为单独的文件。
  2. 将 n 篇文章分组到一个文件中。
  3. 将所有文章分组到一个文件中(不推荐,尽管没有第一印象那么糟糕)。

对于第一个选项,您将在表存储中存储文章的路径,然后直接从 Blob 中获取它。由于上述级别,您应该只需要在这里阅读几篇完整的文章。

对于第 2 和第 3 选项,您将使用 seek 在表存储中存储文件的路径以及从何处读取和停止读取的开始和结束位置。

这是 C# 中的示例代码:

YourBlobClientWithReferenceToTheFile.Seek(TableStorageData.start, SeekOrigin.Begin);
        int numBytesToRead = (int)TableStorageData.end - (int)TableStorageData.start;
        int numBytesRead = 0;

        while (numBytesToRead > 0)
        {

          int n = YourBlobClientWithReferenceToTheFile.Read(bytes,numBytesRead,numBytesToRead);
            if (n == 0)
                break;
            numBytesRead += n;
            numBytesToRead -= n;
        }

我希望这没有变成一本书,希望对您有所帮助。如果您有后续问题或意见,请随时与我联系。谢谢!

于 2013-06-02T21:22:42.637 回答
2

文件的正确存储是 blob。但是,如果您的查询需要同时返回几十个 blob,那么它会像您指出的那样太慢。因此,您可以使用混合方法:对 98% 的数据使用 Azure 表,如果它太大,请改用 Blob 并将 Blob URI 存储在表中。

另外,您是否在压缩您的内容?我肯定会的。

于 2013-05-23T14:23:41.113 回答
1

您可以使用 MongoDB 的 GridFS 功能:http ://docs.mongodb.org/manual/core/gridfs/

默认情况下,它将数据拆分为 256k 块(最大可配置为 16mb),并允许您将分片数据库用作可用于存储和检索文件的文件系统。如果文件大于块大小,则 mongo db 驱动程序在需要检索文件时处理拆分/重新组装数据。要添加额外的磁盘空间,只需添加额外的分片。

但是,您应该知道,只有一些 mongodb 驱动程序支持这一点,这是一个驱动程序约定,而不是允许这种行为的服务器功能。

于 2013-05-23T14:33:11.427 回答
1

几点评论:

  • 您可以做的是始终将 HTML 内容存储在 blob 存储中,并将 blob 的 URL 存储在表存储中。我个人不喜欢有条件地存储数据的想法,即如果 HTML 文件的内容超过 64 KB,则仅将其存储在 blob 存储中,否则使用表存储。您从这种方法中获得的另一个优势是您仍然可以查询数据。如果您将所有内容都存储在 Blob 存储中,您将失去查询能力。
  • 就使用其他 NoSQL 存储而言,我看到的唯一问题是它们在 Windows Azure 上不受本机支持,因此您也将负责管理它们。
于 2013-05-23T15:07:40.333 回答
1

我对此的想法:走 MongoDB(或 CouchDB)路线最终会花费您额外的计算,因为您需要运行一些服务器(以实现高可用性)。根据所需的性能,您最终可能会运行 2 或 4 核机器。三个 4 核机器的运行成本将超过您的 SQL DB 成本(再加上存储成本,MongoDB 等将在 Azure blob 中支持它们的数据以进行持久存储)。

现在,至于将 html 存储在 blob 中:这是一种非常常见的模式,用于将大对象卸载到 blob 存储。GET 应该在对 blob 存储(单个事务)的一次调用中是可行的,尤其是在您提到的文件大小范围内。而且您不必连续检索每个 blob;您可以利用 TPL 将多个 blob 并行下载到您的角色实例。

还有一件事:您如何使用内容?如果你是从你的角色实例中流式传输它,那么我所说的关于 TPL 的内容应该可以很好地工作。另一方面,如果您将href's 注入到您的输出页面中,您可以将 blob url 直接放入您的 html 页面中。如果您担心隐私问题,请将 blob 设为私有并生成一个短 TTL“共享访问签名”,以在一个小时间窗口内授予访问权限(这仅适用于将 blob url 插入其他 html 页面的情况;它不适用如果您正在下载到角色实例,然后在那里对其进行处理)。

于 2013-05-23T22:40:05.697 回答
0

您没有说,但是如果您没有压缩可能解决您的问题的文章,那么只需使用表存储。

否则,只需使用表存储并为每篇文章使用唯一的分区键。如果一篇文章太大,把它分成两行,只要你通过分区键查询你会得到两行,然后使用行键作为索引,指示文章如何重新组合在一起

于 2013-05-23T21:12:10.970 回答
0

另一种选择是将文件作为 VHD 映像存储在 blob 存储中。您的角色可以将 VHD 挂载到他们的文件系统,并从那里读取数据。

复杂性似乎是只有一个 VM 可以对 VHD 具有读/写访问权限。其他人可以创建快照并从中读取,但他们不会看到更新。取决于您的数据更新频率是否可行。例如,如果您在众所周知的时间更新数据,您可以卸载所有客户端,拍摄新快照,然后重新安装以获取新数据。

您还可以使用 SMB 共享来共享 VHD,如此MSDN 博客文章中所述。这将允许完全读/写访问,但可能不太可靠并且更复杂一些。

于 2013-05-23T15:11:06.220 回答
-1

我的一个想法是使用 CDN 来存储您的文章内容,并直接从客户端链接它们,而不是从 sql 获取数据然后进入一些存储的任何多阶段操作。会是这样的

http://<cdnurl>/<container>/<articleId>.html

事实上,同样的事情也可以用 Blob 存储来完成。

这里的优点是这变得非常快。

这里的缺点是丢失了安全方面。

可以探索诸如共享访问签名之类的安全性,但我不确定它对客户端链接有多大帮助。

于 2013-05-23T14:26:41.983 回答