2

我有一个 MongoDB 数据库,其中每天将有 5 到 10 次插入。将插入的数据结构如下所示:

{
    question: 'text here', 
    date: '01/01/2000 01:01',
    title: 'Some title',
    client: 'name',
    assigned_to: ['name1', 'name2', 'name3'],
    answers: [
        {answer: 'bla bla'}, 
        {answer: 'bla bla'}, 
        {answer: 'bla bla'}
    ]
}

我需要在所有文本字段(问题、标题和所有答案)中搜索一个词或一系列词。我一直在寻找,这是我到目前为止所发现的。有3个解决方案:

a) $regexp 
b) Enable full-text search in MongoDB and use it
c) Save the structure with the following format (and then use multi-key search)

{
    question: 'text here', 
    question_s: ['text', 'here'],
    date: '01/01/2000 01:01',
    title: 'Some title',
    title_s: ['Some', 'title'],
    client: 'name',
    assigned_to: ['name1', 'name2', 'name3'],
    answers: [
        {answer: 'bla bla', answer_s: ['bla', 'bla']}, 
        {answer: 'bla bla', answer_s: ['bla', 'bla']}, 
        {answer: 'bla bla', answer_s: ['bla', 'bla']}
    ]
}

知道我的数据的确切格式以及它会有多大(估计未来 10 年),这 3 种中的哪一种在速度和可用性方面更好?(还考虑到每个解决方案所需的时间/脑痛,如设置、配置等)

4

1 回答 1

1

当然,第二个在速度方面要好得多,尤其是在索引方面。第一个在可用性方面要好得多,因为可以使用简单的 RegExp。

另一种选择是拥有另一个所有单词的集合,然后将单词作为_id添加到其中,并具有_id的项目数组(在您的情况下是问题)。这样存储空间就更少了,外部集合负责搜索。将使每个单词的搜索更容易,并且可以通过这个 RegExp: 进行搜索^someText,它是字符串的开头 - 这也将使用索引。

这里的负面部分是您需要适当的系统来确保单词集合已更新并与实际项目(您的案例中的问题)保持一致。但是一旦完成,它将快速且易于使用,并且无论单词集合的大小如何,都能够以良好的性能返回多个搜索结果,因为它将使用索引。

另一个问题可能会开始,如果单词集合索引数据太大并且不适合 RAM,那么它将将此索引数据移动到文件中 - 这通常会减慢写入和读取速度。
但是为此,您需要数以百万计的记录,然后您可以考虑数据库聚类,例如按首字母拆分单词集合。

于 2013-09-11T15:24:57.830 回答