“full-text-indexing”的相关标签问题

0 投票

1 回答

1255 浏览

mysql - 使用 WHERE/LIKE 时索引/全文的最佳实践

我应该将表中的列设置为索引还是全文？将使用 WHERE 和 WHERE .. LIKE 搜索它们。

哪个最好？

2011-03-18T22:23:14.243

0 投票

1 回答

305 浏览

mysql - mysql匹配/反对

我正在使用此搜索

-> 匹配 (c1, c2) 与 (">dg*" in boolean mode);

我得到了这份清单

1 分气

2 dgica

3 数码宝贝

4 dgii

5 位

6 dgly

7 dgc

8 dgse

这似乎是合理的。

问题是我没有得到“dgl”，我知道它在 c1 列中。

所以我得到“dgly”但不是“dgl”。

我觉得这令人困惑，并会感激任何想法。谢谢。

mysql full-text-indexing

2011-03-20T04:48:31.367

0 投票

1 回答

2123 浏览

java - 将文档添加到索引后忘记关闭 Lucene IndexWriter

我有一个程序运行了 2 天，为大约 1.6 亿个文本文件构建 Lucene 索引，程序结束后，我尝试搜索索引，发现索引没有正确构建，indexReader.numDocs() 返回 0。我检查了索引目录，看起来不错，所有索引数据似乎都在那里，目录大小为 1.5 GB。

我检查了我的代码，发现我忘记调用 indexWriter.optimize() 和 indexWriter.close()，我想知道是否可以重新优化（）索引，所以我不需要重建整个索引从头开始？我真的不希望该程序再花 2 天时间。

java lucene indexing full-text-indexing

2011-03-21T06:15:54.190

0 投票

1 回答

1707 浏览

sql-server-2008 - SQL Server 2008 重新填充索引“更新”选项

我创建了一个名为 EntryCatalog 的目录。我为目录分配了一个名为 Entry 的表，并选择了 Notes 和 Title 列（均为 nvarchar max），并将 Track Changes 设置为 Automatic。

我没有在“人口计划”选项中添加任何内容，我认为必须有某种方式让它自动填充并进行“自我管理”。因此，在 Entry 表的 FTI 属性中有一个 Actions 复选框。我检查并选择了更新单选按钮（而不是增量或完整），因为文档说“只要修改了基表中的数据，就会更新全文索引”。我认为这就是我想要的......这是否适用于对 Entry 表进行插入时？

也许我从根本上误解了 FTI 的工作原理。我希望我可以设置一个目录来索引该表中的 2 列，并且当插入新记录时，它们也会自动被索引。可以这样做，还是您必须设置某种调度选项？这真的是重生吗？

谢谢你。

sql-server-2008 full-text-indexing

2011-04-02T19:30:51.417

0 投票

2 回答

1275 浏览

lucene - lucene *.cfs 数量增长

每次更新 lucene *.cfs 中的索引后，文件数增长 _2.cfs、_5.cfs、_7.cfs。每次。可以吗，或者我忘了在代码中关闭一些对象还是其他？

lucene full-text-search lucene.net full-text-indexing

2011-04-08T06:06:04.067

0 投票

1 回答

141 浏览

ruby-on-rails - 如何使用thinktank和indextank索引关联模型

我们正在使用thinktank gem，并且在索引模型关联时遇到了麻烦，即使是简单的关联。例如，一个个人资料属于一个机构，它有一个名字——我们想做这样的事情：

但这不起作用。这一定很简单——我做错了什么？

ruby-on-rails indexing full-text-indexing

2011-04-10T23:21:01.917

0 投票

2 回答

372 浏览

algorithm - 用于自由格式文本的索引算法

我的任务是开发一个应用程序来索引自由格式文本，以便快速查找。我确信这是一个已经被研究到死的领域。但是我不知道从哪里开始，非常感谢任何帮助。

algorithm text full-text-indexing

2011-04-13T22:30:16.970

0 投票

1 回答

736 浏览

django - django-haystack：在索引数据库上选择一个大的 SearchIndex

我有一个包含 35 个字段（Char、Int、Bool、Dec、M2M、FK）的 UserProfile 模型。作为搜索视图功能的一部分，其中一个字段需要全文搜索，而其余 34 个字段将用于提供“高级搜索过滤”（使用：__gte、__lte、__exact、__in、__startswith）。“搜索”查询可以使用 5-35 个字段作为搜索视图标准。

我正在使用 haystack 构建 SearchIndex，目前已添加所有 35 个字段，但这似乎无效，因为我绕过了 django ORM（？）。

来自过滤 Django Haystack 结果的答案，如 QuerySet？建议我可以只将单个全文搜索字段存储在 SearchIndex 中，并将 SearchQuerySet 与 django 的 QuerySet 组合用于剩余的 34 个过滤器字段。然后我会在我的 django 模型中的部分或全部这些字段上使用 db_index=True 吗？使用这种 2 阶段查询合并方法是否可以很好地扩展到数千个结果？

由于我的 UserProfile 模型可能增长到 300K-2M 条目，我试图了解如何最好地索引这个模型。作为数据库索引和搜索的新手，我正在寻找有关如何最好地优化我的数据库的任何见解。

django indexing full-text-indexing django-haystack

2011-04-17T03:18:11.833

0 投票

1 回答

406 浏览

sql - 为什么我的 SQL 查询试图将 nvarchar 值转换为 int？（使用 CONTAINSTABLE()）

我试图让全文搜索在 SQL Server 2008 R2 中工作。我一直在与我们的管理员合作，我们相信我们有一个成功设置索引的目录。现在，我正在尝试使用全文函数查询索引表

这没有问题：

但是，当我尝试使用获取排名值时containstable()，出现错误。

错误：

“关于”值位于名为的列中pagename。我不明白如何让这个错误消失。

有什么帮助吗？

sql sql-server-2008 full-text-search full-text-indexing

2011-05-10T19:11:16.927

0 投票

1 回答

854 浏览

java - 如何使用 lucene 的 shingleanalyzerwrapper + standardanalyzer + indexreader？

我希望你能帮助我解决这个问题。我打算做什么：给定一个正确的文本，我想计算没有停用词的每个词干化标记 ngram 的频率（换句话说，停用词已经被删除）。

这是这种情况：我正在使用 ShingleAnalyzerWrapper + StandardAnalyzer 使用 IndexWriter 索引一些文本，并且当我向 IndexWriter 添加文档时（如下所示： indexwriter.addDocument(doc, analyzer); 其中分析器再次是 ShingleAnalyzerWrapper + StandardAnalyzer ）。

但问题是：当我得到术语频率和术语时，停用词似乎被下划线取代。

这是输入：
String text = "to i want to to i want to linked";
String text2 = "super by hard easy";

如果有什么不清楚的地方，请问我，这样我会尽量让自己更清楚

谢谢您的帮助

java lucene tokenize full-text-indexing frequency-analysis

2011-05-11T14:10:57.083

问题标签 [full-text-indexing]

Reference