问题标签 [text-search]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
299 浏览

oracle - Oracle text search default Stop words for non english locales

Oracle documentation lists following default stop words. http://docs.oracle.com/cd/B28359_01/text.111/b28304/astopsup.htm#CCREF1400

This includes stop words from all languages. But when i query my database to view list of stop words, it only shows English words. SELECT * FROM ctx_stopwords;

It doesn't list non english stop words. I may be missing something here. I am looking for a query which returns all the default oracle stop words in all languages. Is there a way to achieve this?

Thanks!

0 投票
1 回答
1627 浏览

java - Lucene 文本搜索中的错误

我是文本搜索的新手,我正在研究一些与 lucene 相关的示例。我从这个链接中找到了一个例子。http://javatechniques.com/blog/lucene-in-memory-text-search-example/我在我的eclipse IDE中试过了。但它给出了一些错误。我也导入了所有相关的 jar 文件。

这是代码:

公共类 InMemoryExample {

IndexWriter.MaxFieldLength.LIMITED);

但它在以下几行中显示了一些语法错误:

错误一:

IndexWriter writer = 红色下划线 MaxFieldLength new IndexWriter(idx, new StandardAnalyzer(Version.LUCENE_48), IndexWriter.MaxFieldLength.LIMITED);

错误 2:在红色下划线 optimeze()

writer.optimize();

错误 3:用红色下划线 new IndexSearcher(idx)

搜索者 searcher = new IndexSearcher(idx);

错误4:红色下划线搜索

searcher.search(查询,收集器);

你能帮我摆脱这些错误吗?这将是一个很大的帮助。谢谢

修改后的代码:

公共类 InMemoryExample {

public static void main(String[] args) throws Exception{ // 构造一个 RAMDirectory 来保存索引的内存表示 //。RAMDirectory idx = new RAMDirectory();

标准分析仪(版本.LUCENE_48));IndexWriter writer = new IndexWriter(idx, cfg);

这是输出:

线程“主”java.lang.VerifyError 中的异常:类 org.apache.lucene.analysis.SimpleAnalyzer 覆盖最终方法 tokenStream.(Ljava/lang/String;Ljava/io/Reader;)Lorg/apache/lucene/analysis/TokenStream ; 在 java.lang.ClassLoader.defineClass1(Native Method) 在 java.lang.ClassLoader.defineClass(Unknown Source) 在 java.security.SecureClassLoader.defineClass(Unknown Source) 在 java.net.URLClassLoader.defineClass(Unknown Source) 在 java .net.URLClassLoader.access$100(Unknown Source) at java.net.URLClassLoader$1.run(Unknown Source) at java.net.URLClassLoader$1.run(Unknown Source) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(Unknown Source) at java.lang.ClassLoader.loadClass(Unknown Source) at sun.misc.Launcher$AppClassLoader。

0 投票
1 回答
467 浏览

git - 如何打印我在任何 git 提交期间添加或编辑的所有 TODO 评论

如何列出我在 git 版本化项目的所有提交中添加或编辑的所有 TODO 评论?我不想看到其他人的 TODO 评论。

输出应该打印所有实际包含我的TODO 注释的行:

我不想只列出提交本身git log -S TODO

0 投票
5 回答
6677 浏览

git - 如何在 git 存储库中列出我当前的所有 TODO 消息?

我想查看只有我编写的所有 TODO 注释,这些注释存在于 git 管理的当前代码库中。

到目前为止,我所得到的是打印我在完整的 git 历史中创建或修改的所有 TODO 注释:git log -p --author="My name" -S TODO | grep "\+.*TODO"

但是这个工具链列出了所有曾经写过的 TODO 注释,甚至那些我已经解决并因此再次从代码中删除的注释。

什么是合适的工具链,可以逐行搜索当前代码库,检查它是否包含“TODO”以及该行是否由我编写并打印这些行?

0 投票
0 回答
66 浏览

sorting - 对搜索结果进行排序

我正在同时实现短语和关键字搜索(很可能这种搜索有一个名称,但我不知道)。举例来说,我喜欢海龟的搜索应该匹配:

简而言之,一个字符串必须包含所有要匹配的关键字。

然后是对搜索结果进行排序的问题。

天真地,我假设匹配最接近结果的开头和原始查询,结果越好。我该如何表达这个代码?

我的第一种方法是根据原始查询中关键字与预期位置的接近程度,为每个结果中的每个关键字分配一个分数。在伪代码中:

分数越低,结果越好。上述示例的分数似乎足够好:

这是对搜索结果进行排序的可行方法吗?

撇开任何形式的语义分析不谈,我还能考虑什么来改进它?

0 投票
1 回答
837 浏览

mysql - Mysql 字符串索引

我需要一个 mysql 查询来进行姓名和姓氏的文本搜索...这是查询:

这个查询应该找到“John Fox”和“Fox John”和“John Fox Joe”和“Joe John Fox”等等。这很好用,但对于大表,我认为我应该添加和索引......我对吗?我读到 btree 索引仅对like 'John%'语法有用,对like '% John%'. 因此,为新索引添加由 CONCAT(name,' ',surname) 组成的新列可能没有用。

我想知道这个文本搜索问题的最佳方法是什么。

PS:我使用的是 innodb 表,所以我不能使用全文索引。

0 投票
1 回答
231 浏览

r - R中的可变参数快速文本搜索功能

我有以下来自大型 data.table 的示例数据:

我必须创建一个可以向其发送可变数量的文本参数的函数,并且该函数应该对数据执行 AND 搜索并输出具有所有文本搜索参数的所有行。不同的搜索字符串可以在不同的列中。

例如 searchfn(ddf, 'brazil','third') 应该只打印出最后一行。

这个案子需要被忽略。

数据很大,因此搜索需要快速和速度优化(因此使用 data.table)。

我试过了:

它拾取所有发送的搜索字符串并输出搜索到的数字,但搜索不正确。

0 投票
0 回答
710 浏览

c++ - 添加快捷键 ctrl+F 进行文本搜索

我正在尝试将 Ctrl+F 加速器添加到我的 gtkmm textview 程序。我已经在 gtk 条目字段中实现了搜索功能,所以我唯一需要的是在按下 Ctrl+F 时获得查找条目的焦点。

我用谷歌搜索并检查了 gtkmm 的教程/参考(2.4,我正在使用它),但我发现的唯一东西是使用 UIManager 的菜单和工具栏上下文中的加速器,我使用的那个 .cc 文件中没有它(而且我无法添加它们,因为它是现有程序)。

我尝试在按钮上添加一个带有 AccelKey 的操作或尝试了函数 add_accelerator() 但我无法正确使用它们(我对 gtkmm 很陌生,并且没有足够的样本 - 至少我不明白) . 这里有一些我试过的例子:

我不知道如何将此操作添加到我创建的按钮(在工具栏中)...

我在这里尝试了一些东西,但我既不了解我需要在此处输入的参数,也不了解此方法的工作原理-ofc 它不起作用...

如果有人能向我解释这件事是如何正常工作的,我会非常高兴,并为我糟糕的英语感到抱歉。如果您需要任何事情,请告诉我。提前致谢

问候

编辑:我在 gtk 源代码中查找并试图了解 add_accelerator 的参数。现在我尝试了这个但仍然无法正常工作......:

更新:

好的,我现在已经理解了我的大部分想法,并且我知道为什么它不起作用。问题是我必须将 accel_group 添加到窗口小部件,但我的程序中只有一个滚动窗口和框......现在我不知道如何继续...... :)

更新2:

好吧,我通过检查 state 和 keyval 参数使用“on_key_press_event”处理程序设法在没有加速器的情况下做到了。希望这至少对一些人有所帮助^^。

如果有的话,我仍然会对加速器的解决方案感兴趣!问候

0 投票
3 回答
96 浏览

sql-server - 从 SQL 表中查找包含字符串的单词数

我被要求搜索特定字符串并生成一个列表,其中描述字段包含该字符串。不是问题。在这种情况下,我使用了 LIKE '%man%',它给出了一组包含 'man' 的记录。这也给出了“manage”、“management”、“mankind”等的出现。我想找到一个记录集,其中包含找到的单词列表,其中包括“man”和出现次数。这在 SQL 2008 中可行吗?如果是这样,你能指出我正确的方向吗?

0 投票
1 回答
215 浏览

oracle - 在 Oracle 模糊文本搜索中,多个相似词的字符串比完全匹配的字符串得分更高

当我在 Oracle 中运行以下文本搜索查询时:

返回的最高得分为 100 的记录是包含多个与“citi”相似的词的记录:堪萨斯
-得分 100

但包含完全匹配的记录只有 76 分:
花旗集团 - 得分 76

仅包含一个相似词的记录得分为 53
City of Abilene - 得分 53

完全匹配的记录不应该是最高分吗?有没有办法做到这一点?

如果我增加到similarity_score80,则不再返回带有“城市”的记录。但这会减少其他搜索返回的记录数量。

如果我减少numterms到 2,则不再返回带有“city”的记录(显然 Oracle 不认为“city”是“citi”的第二个最相似的词)。但这再次减少了其他搜索返回的记录数。