“text-search”的相关标签问题

0 投票

1 回答

299 浏览

oracle - Oracle text search default Stop words for non english locales

Oracle documentation lists following default stop words. http://docs.oracle.com/cd/B28359_01/text.111/b28304/astopsup.htm#CCREF1400

This includes stop words from all languages. But when i query my database to view list of stop words, it only shows English words. SELECT * FROM ctx_stopwords;

It doesn't list non english stop words. I may be missing something here. I am looking for a query which returns all the default oracle stop words in all languages. Is there a way to achieve this?

Thanks!

2014-06-11T20:02:51.810

0 投票

1 回答

1627 浏览

java - Lucene 文本搜索中的错误

我是文本搜索的新手，我正在研究一些与 lucene 相关的示例。我从这个链接中找到了一个例子。http://javatechniques.com/blog/lucene-in-memory-text-search-example/我在我的eclipse IDE中试过了。但它给出了一些错误。我也导入了所有相关的 jar 文件。

这是代码：

公共类 InMemoryExample {

IndexWriter.MaxFieldLength.LIMITED);

但它在以下几行中显示了一些语法错误：

错误一：

IndexWriter writer = 红色下划线 MaxFieldLength new IndexWriter(idx, new StandardAnalyzer(Version.LUCENE_48), IndexWriter.MaxFieldLength.LIMITED);

错误 2：在红色下划线 optimeze()

writer.optimize();

错误 3：用红色下划线 new IndexSearcher(idx)

搜索者 searcher = new IndexSearcher(idx);

错误4：红色下划线搜索

searcher.search（查询，收集器）；

你能帮我摆脱这些错误吗？这将是一个很大的帮助。谢谢

修改后的代码：

公共类 InMemoryExample {

public static void main(String[] args) throws Exception{ // 构造一个 RAMDirectory 来保存索引的内存表示 //。RAMDirectory idx = new RAMDirectory();

标准分析仪（版本.LUCENE_48））；IndexWriter writer = new IndexWriter(idx, cfg);

这是输出：

线程“主”java.lang.VerifyError 中的异常：类 org.apache.lucene.analysis.SimpleAnalyzer 覆盖最终方法 tokenStream.(Ljava/lang/String;Ljava/io/Reader;)Lorg/apache/lucene/analysis/TokenStream ; 在 java.lang.ClassLoader.defineClass1(Native Method) 在 java.lang.ClassLoader.defineClass(Unknown Source) 在 java.security.SecureClassLoader.defineClass(Unknown Source) 在 java.net.URLClassLoader.defineClass(Unknown Source) 在 java .net.URLClassLoader.access$100(Unknown Source) at java.net.URLClassLoader$1.run(Unknown Source) at java.net.URLClassLoader$1.run(Unknown Source) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(Unknown Source) at java.lang.ClassLoader.loadClass(Unknown Source) at sun.misc.Launcher$AppClassLoader。

java lucene text-search

2014-06-25T10:53:16.393

0 投票

1 回答

467 浏览

git - 如何打印我在任何 git 提交期间添加或编辑的所有 TODO 评论

如何列出我在 git 版本化项目的所有提交中添加或编辑的所有 TODO 评论？我不想看到其他人的 TODO 评论。

输出应该打印所有实际包含我的TODO 注释的行：

我不想只列出提交本身git log -S TODO。

git git-commit todo text-search

2014-07-30T10:39:50.817

0 投票

5 回答

6677 浏览

git - 如何在 git 存储库中列出我当前的所有 TODO 消息？

我想查看只有我编写的所有 TODO 注释，这些注释存在于 git 管理的当前代码库中。

到目前为止，我所得到的是打印我在完整的 git 历史中创建或修改的所有 TODO 注释：git log -p --author="My name" -S TODO | grep "\+.*TODO"

但是这个工具链列出了所有曾经写过的 TODO 注释，甚至那些我已经解决并因此再次从代码中删除的注释。

什么是合适的工具链，可以逐行搜索当前代码库，检查它是否包含“TODO”以及该行是否由我编写并打印这些行？

git git-commit todo text-search

2014-07-30T14:19:15.830

0 投票

0 回答

66 浏览

sorting - 对搜索结果进行排序

我正在同时实现短语和关键字搜索（很可能这种搜索有一个名称，但我不知道）。举例来说，我喜欢海龟的搜索应该匹配：

简而言之，一个字符串必须包含所有要匹配的关键字。

然后是对搜索结果进行排序的问题。

天真地，我假设匹配最接近结果的开头和原始查询，结果越好。我该如何表达这个代码？

我的第一种方法是根据原始查询中关键字与预期位置的接近程度，为每个结果中的每个关键字分配一个分数。在伪代码中：

分数越低，结果越好。上述示例的分数似乎足够好：

这是对搜索结果进行排序的可行方法吗？

撇开任何形式的语义分析不谈，我还能考虑什么来改进它？

sorting language-agnostic text-search

2014-08-18T13:32:01.160

0 投票

1 回答

837 浏览

mysql - Mysql 字符串索引

我需要一个 mysql 查询来进行姓名和姓氏的文本搜索...这是查询：

这个查询应该找到“John Fox”和“Fox John”和“John Fox Joe”和“Joe John Fox”等等。这很好用，但对于大表，我认为我应该添加和索引......我对吗？我读到 btree 索引仅对like 'John%'语法有用，对like '% John%'. 因此，为新索引添加由 CONCAT(name,' ',surname) 组成的新列可能没有用。

我想知道这个文本搜索问题的最佳方法是什么。

PS：我使用的是 innodb 表，所以我不能使用全文索引。

mysql sql indexing text-search

2014-09-12T07:29:38.140

0 投票

1 回答

231 浏览

r - R中的可变参数快速文本搜索功能

我有以下来自大型 data.table 的示例数据：

我必须创建一个可以向其发送可变数量的文本参数的函数，并且该函数应该对数据执行 AND 搜索并输出具有所有文本搜索参数的所有行。不同的搜索字符串可以在不同的列中。

例如 searchfn(ddf, 'brazil','third') 应该只打印出最后一行。

这个案子需要被忽略。

数据很大，因此搜索需要快速和速度优化（因此使用 data.table）。

我试过了：

它拾取所有发送的搜索字符串并输出搜索到的数字，但搜索不正确。

r search data.table text-search

2014-09-12T17:08:04.847

0 投票

0 回答

710 浏览

c++ - 添加快捷键 ctrl+F 进行文本搜索

我正在尝试将 Ctrl+F 加速器添加到我的 gtkmm textview 程序。我已经在 gtk 条目字段中实现了搜索功能，所以我唯一需要的是在按下 Ctrl+F 时获得查找条目的焦点。

我用谷歌搜索并检查了 gtkmm 的教程/参考（2.4，我正在使用它），但我发现的唯一东西是使用 UIManager 的菜单和工具栏上下文中的加速器，我使用的那个 .cc 文件中没有它（而且我无法添加它们，因为它是现有程序）。

我尝试在按钮上添加一个带有 AccelKey 的操作或尝试了函数 add_accelerator() 但我无法正确使用它们（我对 gtkmm 很陌生，并且没有足够的样本 - 至少我不明白） . 这里有一些我试过的例子：

我不知道如何将此操作添加到我创建的按钮（在工具栏中）...

我在这里尝试了一些东西，但我既不了解我需要在此处输入的参数，也不了解此方法的工作原理-ofc 它不起作用...

如果有人能向我解释这件事是如何正常工作的，我会非常高兴，并为我糟糕的英语感到抱歉。如果您需要任何事情，请告诉我。提前致谢

问候

编辑：我在 gtk 源代码中查找并试图了解 add_accelerator 的参数。现在我尝试了这个但仍然无法正常工作......：

更新：

好的，我现在已经理解了我的大部分想法，并且我知道为什么它不起作用。问题是我必须将 accel_group 添加到窗口小部件，但我的程序中只有一个滚动窗口和框......现在我不知道如何继续...... :)

更新2：

好吧，我通过检查 state 和 keyval 参数使用“on_key_press_event”处理程序设法在没有加速器的情况下做到了。希望这至少对一些人有所帮助^^。

如果有的话，我仍然会对加速器的解决方案感兴趣！问候

c++gtkmm accelerator text-search

2014-09-16T06:00:52.250

0 投票

3 回答

96 浏览

sql-server - 从 SQL 表中查找包含字符串的单词数

我被要求搜索特定字符串并生成一个列表，其中描述字段包含该字符串。不是问题。在这种情况下，我使用了 LIKE '%man%'，它给出了一组包含 'man' 的记录。这也给出了“manage”、“management”、“mankind”等的出现。我想找到一个记录集，其中包含找到的单词列表，其中包括“man”和出现次数。这在 SQL 2008 中可行吗？如果是这样，你能指出我正确的方向吗？

sql-server sql-server-2008 text-search

2014-12-18T17:06:32.497

0 投票

1 回答

215 浏览

oracle - 在 Oracle 模糊文本搜索中，多个相似词的字符串比完全匹配的字符串得分更高

当我在 Oracle 中运行以下文本搜索查询时：

返回的最高得分为 100 的记录是包含多个与“citi”相似的词的记录：堪萨斯
城-得分 100

但包含完全匹配的记录只有 76 分：
花旗集团 - 得分 76

仅包含一个相似词的记录得分为 53
City of Abilene - 得分 53

完全匹配的记录不应该是最高分吗？有没有办法做到这一点？

如果我增加到similarity_score80，则不再返回带有“城市”的记录。但这会减少其他搜索返回的记录数量。

如果我减少numterms到 2，则不再返回带有“city”的记录（显然 Oracle 不认为“city”是“citi”的第二个最相似的词）。但这再次减少了其他搜索返回的记录数。

oracle text-search

2014-12-26T16:59:58.820

问题标签 [text-search]

Reference