问题标签 [phrase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - 搜索短语查询,如 org:"AT and T" 与 org:"AT & T"
如何使用 org:"AT & T" 搜索 org:"AT and T" 之类的短语查询。
当我搜索 org:"AT and T" 时,它与 org:"AT & T" 不匹配,这是什么问题?任何人都可以建议。
我解析的查询是 PhraseQuery(org:"at t")
字段类型为
sqlite - SQLite 全文搜索:带有 AND 操作的 PHRASE 查询
我在 FTS 中创建一个短语查询,如下所示:
这个查询没问题。
现在,我想创建一个查询,其中包含一个短语查询,AND
操作如下:
TABLE_NAME MATCH 'COLUMN1_NAME:"a* b*" AND COLUMN2_NAME:c'
此查询返回错误。
java - 使用 TermFreq 的短语频率
我正在尝试将termFreq()
函数与短语一起使用,例如
我正在使用shingleFilter
它可以对单词进行分组并像单个术语一样查找结果。当我这样使用它时:
“短语”一词将由为该字段注入的所有过滤器处理,例如
stemming
lowercase
stopwords
- 等等
当我使用短语时,除非我指定确切的术语,否则它不起作用。一个例子是这样的:
那是一个错误吗?
编辑:
我的 schema.xml
r - 用短语构建语料库
我的文件如下:
我想让我的语料库分开,,
以便我的最终DocumentTermMatrix
变成:
我知道如何计算DocumentTermMatrix
单个单词,但不知道如何separated for each phrase
在 R中制作语料库。R
首选解决方案,但Python
也欢迎解决方案。
我尝试过的是:
我正进入(状态:
我想要的不是单词的组合,而是我在矩阵中显示的短语。
solr - 防止 solr 短语查询被阻止或去除停用词
我正在尝试检查此功能是否甚至可以使用 Solr 实现。
我定义了一个文本字段,并在查询分析器上定义了一个StopFilterFactory和一个PorterStemFilterFactory。
我使用edsimax作为请求处理程序。
在我当前的实现中,如果我搜索:
q = "this is a phrasing query" this is not phrasing
lucene 查询将是:(请原谅我的伪语法)
text:"this ? ? phras query" | 文字:这个 | 文本:短语
我想得到的是:
文本:“这是一个短语查询”| 文字:这个 | 文本:短语
换句话说,我想将用引号括起来的短语的行为设置为:
只有在没有任何标记的整个短语出现在文档中时,文档才会匹配。
我理解这可能通过定义一个不会进行任何处理的附加字段并增加它对 edismax 配置的提升来实现。
但这将返回不包含确切短语的文档的匹配项。
这可以在 Solr 上实现吗?如何?
java - Java:包含关键短语的输出字符串
我希望了解如何从包含关键短语的字符串中提取单词。
假设关键字是“_01”,输出包含关键字的输入序列“panorder_01,panorder_02,disorder_01,forkorder_01,forkorder_02,forkorder_03”中的任何单词有什么好的方法?
c++ - 在c ++中给定单词的字符串向量创建一个短语
到目前为止,我的 c++ 程序如下所示:
我需要创建一个类似于 [YYY] [YYYYY] [YYYBC] [GHLLLM] [PPPRR] [RS] [SS] [SSTTT] 的短语,其中字母全部打乱,括号表示单词的长度。本质上,我需要创建一个具有这些特定字长的词组,以及这些特定数量的字母,11 y's 1 b 1 c 1 g 1 h 3 L's 1 m 3 p's 3 r's 5 s's 3t's I've been pulling我的头发想弄清楚该怎么做。您的意见将不胜感激。
php - 用于突出显示字符串中的短语的正则表达式
我已经制作了这个算法来突出显示字符串中的一个单词,但我必须对其进行调整以突出显示一个短语。
我所拥有的是一个逐字循环、修剪不需要的字符并使用\b($str)\b
.
例如,我这样做是为了修剪",.-"
等,但这对于短语(甚至对于单词)都不是一个好的解决方案。
我如何才能在短语中实现这一点?
一个例子:假设我必须adipiscing elit
在这个字符串中突出显示:
它必须变成:
c# - 为什么我不能设置短语(或段落)的字体?
我从 itextsharp 开始,想知道是否有任何理由为什么我在构建后设置短语的字体它不起作用。有什么理由,我错过了什么吗?
lucene - 带通配符的 Lucene 短语查询
我想出了使用以下代码以编程方式创建查询以搜索带有通配符的短语的解决方案:
示例创建和调用 toString() 方法将输出:
输出:
对于大多数情况,效果很好,而且速度足够快。例如,如果我创建这样的查询并使用它进行搜索,它将输出所需的结果,例如:
而不是这样的:
我已经提到,在大多数情况下,查询工作得足够快。目前我有一个大小为 aprox 的索引。200GB,平均搜索时间在 0.1 到 3 秒之间。取决于许多因素,例如:缓存、与短语中单个单词匹配的文档子集的大小,因为 lucene 将在已建立的术语之间执行集合交集。
示例:假设我想查询短语“an* karenjin*”(我将其拆分为 ["an*", "karenjin*"],然后使用 createPhraseQuery 方法创建查询)并且我希望它匹配包含以下内容的句子:" ana karenjina", "ani karenjinoj", "ane karenjine", ... (克罗地亚语语法不同)。
这个查询非常慢,我没有等待足够长的时间来获得结果(超过 1 小时),有时会导致 GC 开销限制超出异常。这种行为在某种程度上是意料之中的,因为“an*”本身匹配大量文档。我知道我可以在 30-40 秒(更快但仍然很慢)内查询“an? karanjin*”。
这就是我感到困惑的地方。如果我只查询“karenjin*”,它会在 1 秒内给出结果。因此,我尝试使用 WildcardQuery 和 QueryWrapperFilter 查询“an* karenjin*”并使用过滤器“karenjin*”。而且它仍然是不可接受的缓慢(我在它返回任何东西之前杀死了进程)。
文档说过滤器减少了查询的搜索空间。所以我尝试使用过滤器:
并查询:
比搜索,(经过几次热身查询):
好的,我的问题是什么?
怎么查询:
很快,但使用上述过滤器仍然很慢?