c# - Amazon SimpleDB - 有没有办法列出域中的所有属性？

Question

我正在使用 C# 和 Amazon 的 AWSSDK 库来测试 SimpleDB 中的一些东西。到目前为止一切顺利。

但是，我试图想出一种简洁的方法来检索适用于域的所有属性。事实证明这很棘手，无需检索项目，显然我可以得到属性列表。但是如果我在一个域中有 100,000 个项目怎么办。假设“Person”域中的前 70,000 个项目具有：

名字、姓氏、地址

然后我打了一个有

名字、姓氏、地址、电话

然后我击中了另一个 80,000 左右的项目，它具有：

名字，姓氏，电子邮件，电话

在上面的示例中，对于 Person 域，我将如何获得包含以下内容的列表：

名字、姓氏、地址、电子邮件、电话

...没有执行数量荒谬的选择语句？

非常感谢！

score 2 · Accepted Answer

对于具有许多项目的域，您应该能够使用随机抽样方法获得高度准确的属性列表。这是一些 C#-ish 伪代码：

int domainCount = "select count(*) from Person";
int avgSkipCount = domainCount/2500;
int processedCount = 0;
string nextToken = null;
Set attributeNames;

do
{
  int nextSkipCount = Random.Next(0, avgSkipCount*2);
  string nextToken = "select count(*) from Person limit " + nextSkipCount;
  var countRequest = new SelectRequest
  {
    NextToken = nextToken,
    SelectExpression = "select count(*) from Person limit " + nextSkipCount
  };
  var countResponse = SimpleDb.Select(countRequest);
  nextToken = countResponse.NextToken;
  processedCount += countResponse.Count;

  var getRequest = new SelectRequest 
  {
    NextToken = nextToken,
    SelectExpression = "select * from Person limit 1"
  };
  var getResponse = SimpleDb.Select(getRequest);
  nextToken = getResponse.NextToken;
  processedCount++;

  attributeNames.Add(getResponse.AttributeNames);

} while (domainCount > processedCount);

这取决于您可以使用从 select count(*) 查询返回的 NextToken 来跳过 SimpleDB 中的记录这一事实。Mocky对如何实现这一点进行了出色的解释。我已经解释了如何使用 Simple Savant 完成这样的高效分页。

这将为大多数数据集提供 99% 的准确度，这对于大多数实际使用来说应该足够好。统计理论表明，对于任何大小的数据集，2500 的样本量实际上可以为您提供相同的准确度，因此这种方法甚至可以扩展到数百万个项目。

这显然并不理想，因为它仍然需要大量查询，但如果您的数据集的属性变化数量相对有限，您应该能够用更小的样本量完成同样的事情。

c# - Amazon SimpleDB - 有没有办法列出域中的所有属性？

1 回答 1

Related

Reference