我的表包含超过 1200 万行。
我需要使用 Lucene.NET 索引这些行(我需要执行初始索引)。
因此,我尝试通过从 sql 读取批处理数据包(每批 1000 行)以批处理方式进行索引。
这是它的外观:
public void BuildInitialBookSearchIndex()
{
FSDirectory directory = null;
IndexWriter writer = null;
var type = typeof(Book);
var info = new DirectoryInfo(GetIndexDirectory());
//if (info.Exists)
//{
// info.Delete(true);
//}
try
{
directory = FSDirectory.GetDirectory(Path.Combine(info.FullName, type.Name), true);
writer = new IndexWriter(directory, new StandardAnalyzer(), true);
}
finally
{
if (directory != null)
{
directory.Close();
}
if (writer != null)
{
writer.Close();
}
}
var fullTextSession = Search.CreateFullTextSession(Session);
var currentIndex = 0;
const int batchSize = 1000;
while (true)
{
var entities = Session
.CreateCriteria<BookAdditionalInfo>()
.CreateAlias("Book", "b")
.SetFirstResult(currentIndex)
.SetMaxResults(batchSize)
.List();
using (var tx = Session.BeginTransaction())
{
foreach (var entity in entities)
{
fullTextSession.Index(entity);
}
currentIndex += batchSize;
Session.Flush();
tx.Commit();
Session.Clear();
}
if (entities.Count < batchSize)
break;
}
}
但是,当当前索引大于 6-7 百万时,操作会超时。NHibernate 分页会引发超时。
任何建议,NHibernate 中的任何其他方式来索引这 1200 万行?
编辑:
可能我会实施最农民的解决方案。
因为 BookId 是我表中的集群索引,并且 BookId 的选择发生得非常快,所以我将找到最大 BookId 并遍历所有记录并为所有记录编制索引。
for (long = 0; long < maxBookId; long++)
{
// get book by bookId
// if book exist, index it
}
如果您有任何其他建议,请回复此问题。