问题标签 [full-text-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - 使用 WHERE/LIKE 时索引/全文的最佳实践
我应该将表中的列设置为索引还是全文?将使用 WHERE 和 WHERE .. LIKE 搜索它们。
哪个最好?
mysql - mysql匹配/反对
我正在使用此搜索
-> 匹配 (c1, c2) 与 (">dg*" in boolean mode);
我得到了这份清单
1 分气
2 dgica
3 数码宝贝
4 dgii
5 位
6 dgly
7 dgc
8 dgse
这似乎是合理的。
问题是我没有得到“dgl”,我知道它在 c1 列中。
所以我得到“dgly”但不是“dgl”。
我觉得这令人困惑,并会感激任何想法。谢谢。
java - 将文档添加到索引后忘记关闭 Lucene IndexWriter
我有一个程序运行了 2 天,为大约 1.6 亿个文本文件构建 Lucene 索引,程序结束后,我尝试搜索索引,发现索引没有正确构建,indexReader.numDocs() 返回 0。我检查了索引目录,看起来不错,所有索引数据似乎都在那里,目录大小为 1.5 GB。
我检查了我的代码,发现我忘记调用 indexWriter.optimize() 和 indexWriter.close(),我想知道是否可以重新优化()索引,所以我不需要重建整个索引从头开始?我真的不希望该程序再花 2 天时间。
sql-server-2008 - SQL Server 2008 重新填充索引“更新”选项
我创建了一个名为 EntryCatalog 的目录。我为目录分配了一个名为 Entry 的表,并选择了 Notes 和 Title 列(均为 nvarchar max),并将 Track Changes 设置为 Automatic。
我没有在“人口计划”选项中添加任何内容,我认为必须有某种方式让它自动填充并进行“自我管理”。因此,在 Entry 表的 FTI 属性中有一个 Actions 复选框。我检查并选择了更新单选按钮(而不是增量或完整),因为文档说“只要修改了基表中的数据,就会更新全文索引”。我认为这就是我想要的......这是否适用于对 Entry 表进行插入时?
也许我从根本上误解了 FTI 的工作原理。我希望我可以设置一个目录来索引该表中的 2 列,并且当插入新记录时,它们也会自动被索引。可以这样做,还是您必须设置某种调度选项?这真的是重生吗?
谢谢你。
lucene - lucene *.cfs 数量增长
每次更新 lucene *.cfs 中的索引后,文件数增长 _2.cfs、_5.cfs、_7.cfs。每次。可以吗,或者我忘了在代码中关闭一些对象还是其他?
ruby-on-rails - 如何使用thinktank和indextank索引关联模型
我们正在使用thinktank gem,并且在索引模型关联时遇到了麻烦,即使是简单的关联。例如,一个个人资料属于一个机构,它有一个名字——我们想做这样的事情:
但这不起作用。这一定很简单——我做错了什么?
algorithm - 用于自由格式文本的索引算法
我的任务是开发一个应用程序来索引自由格式文本,以便快速查找。我确信这是一个已经被研究到死的领域。但是我不知道从哪里开始,非常感谢任何帮助。
django - django-haystack:在索引数据库上选择一个大的 SearchIndex
我有一个包含 35 个字段(Char、Int、Bool、Dec、M2M、FK)的 UserProfile 模型。作为搜索视图功能的一部分,其中一个字段需要全文搜索,而其余 34 个字段将用于提供“高级搜索过滤”(使用:__gte、__lte、__exact、__in、__startswith)。“搜索”查询可以使用 5-35 个字段作为搜索视图标准。
我正在使用 haystack 构建 SearchIndex,目前已添加所有 35 个字段,但这似乎无效,因为我绕过了 django ORM(?)。
来自过滤 Django Haystack 结果的答案,如 QuerySet?建议我可以只将单个全文搜索字段存储在 SearchIndex 中,并将 SearchQuerySet 与 django 的 QuerySet 组合用于剩余的 34 个过滤器字段。然后我会在我的 django 模型中的部分或全部这些字段上使用 db_index=True 吗?使用这种 2 阶段查询合并方法是否可以很好地扩展到数千个结果?
由于我的 UserProfile 模型可能增长到 300K-2M 条目,我试图了解如何最好地索引这个模型。作为数据库索引和搜索的新手,我正在寻找有关如何最好地优化我的数据库的任何见解。
sql - 为什么我的 SQL 查询试图将 nvarchar 值转换为 int?(使用 CONTAINSTABLE())
我试图让全文搜索在 SQL Server 2008 R2 中工作。我一直在与我们的管理员合作,我们相信我们有一个成功设置索引的目录。现在,我正在尝试使用全文函数查询索引表
这没有问题:
但是,当我尝试使用 获取排名值时containstable()
,出现错误。
错误:
“关于”值位于名为 的列中pagename
。我不明白如何让这个错误消失。
有什么帮助吗?
java - 如何使用 lucene 的 shingleanalyzerwrapper + standardanalyzer + indexreader?
我希望你能帮助我解决这个问题。我打算做什么:给定一个正确的文本,我想计算没有停用词的每个词干化标记 ngram 的频率(换句话说,停用词已经被删除)。
这是这种情况:我正在使用 ShingleAnalyzerWrapper + StandardAnalyzer 使用 IndexWriter 索引一些文本,并且当我向 IndexWriter 添加文档时(如下所示: indexwriter.addDocument(doc, analyzer); 其中分析器再次是 ShingleAnalyzerWrapper + StandardAnalyzer )。
但问题是:当我得到术语频率和术语时,停用词似乎被下划线取代。
这是输入:
String text = "to i want to to i want to linked";
String text2 = "super by hard easy";
这是输出:
term: |freq:6
term: _|freq:2
term:_ hard|freq:1
term:_ i|freq:2
term:_ link|freq:1
term:easy|freq:1
term :hard|freq:1
term:hard easy|freq:1
term:i|freq:2
term:i want|freq:2
term:link|freq:1
term:super|freq:1
term:super _|freq: 1
学期:想要|频率:2
学期:想要 _|频率:2
如果有什么不清楚的地方,请问我,这样我会尽量让自己更清楚
谢谢您的帮助