0

我正在尝试使用 AzureDirectory 库将 Lucene.NET 索引存储在 Azure 云存储帐户上。

我正在使用以下版本:

  • Microsoft.Windows.Azure.Storage 4.3.0.0
  • Lucene.Net 3.0.3.0
  • Lucene.Net.Store.Azure 3.0.5553.21100

并调用以下方法:

public void UpdateDocument(Term keyTerm, Document document, string indexName)
{    
    using (var analyser = new StandardAnalyzer(LuceneVersion))
    {
        using (var directory = new AzureDirectory(cloudStorage.GetStorageAccount(), indexName, new RAMDirectory()))
        {
            using (var indexWriter = new IndexWriter(directory, analyser, true, IndexWriter.MaxFieldLength.UNLIMITED))
            {
                indexWriter.UpdateDocument(keyTerm, document);
            }
        }
    }
}

当我调用该方法时,即使只调用 10 次(来自单元测试),总时间约为 30 秒。

我已经尝试对索引编写器进行各种更改,以查看是否可以获得任何性能提升,但到目前为止还没有。我曾尝试更改代码以重用索引编写器和目录类,但我最终得到了文件锁。我还想让索引代码从调用者那里抽象出来,以保持 Lucene 隔离。如果我注释掉,indexWriter.UpdateDocument(keyTerm, document);那么它的响应会告诉我这就是缓慢的地方。

我想知道我是否做错了什么或在这里遗漏了什么?

4

1 回答 1

0

上面的方法只需要调整以更好地使用资源,因为为每个文档打开目录和索引编写器的成本太高。我调整后的方法效果很好:

public void UpdateDocumentBatch(Term keyTerm, IEnumerable<Document> documents, string indexName)
{
    using (var analyser = new StandardAnalyzer(LuceneVersion))
    {
        using (var directory = new AzureDirectory(cloudStorage.GetStorageAccount(), indexName, new RAMDirectory()))
        {
            var createIndex = !IndexReader.IndexExists(directory);

            using (var indexWriter = new IndexWriter(directory, analyser, createIndex, IndexWriter.MaxFieldLength.UNLIMITED))
            {
                indexWriter.SetRAMBufferSizeMB(100);

                foreach (var document in documents)
                {
                    keyTerm.Text = document.GetField(keyTerm.Field).StringValue;

                    indexWriter.UpdateDocument(keyTerm, document);
                }

                indexWriter.Commit();
            }
        }
    }
}
于 2016-01-17T21:58:53.757 回答