问题标签 [text-search]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - 如何加快在给定文本中搜索许多不同关键字的速度
我正在寻找存储在名为“EmailKeywords”的表中的几个关键字的外观,这些关键字在通过变量@Searchtext 传递的搜索字符串中。我通过下面编写的存储过程完成了这一点,它通常可以正常工作。但是要查找许多关键字,这需要花费大量时间,因为我必须使用每个关键字遍历搜索文本。
有人知道如何加快搜索速度吗?欢迎任何提示。
text-search - 用相同顺序的字符在另一个文本中搜索一个文本
如果它存在于另一个文本('haystack')中,我想搜索一个文本('needle'),并具有以下两个条件:
- 'needle' 的所有字符必须以相同的顺序在 'haystack' 中
- 'haystack' 中的 'needle' 的后续字符之间可以有任何和无限的其他字符
例子:
- abcde 中的 cde --> TRUE
- ab-c-de 中的 cde --> TRUE
- cabecd 中的 cde --> FALSE
- cde 在 cd!a+b5ce --> TRUE
- edc 中的 cde --> FALSE
此外,'cde' 不是一个常量字符串,而是一个在列表上迭代的变量。
python 或 R 或 bash 中的任何优雅解决方案将不胜感激。
grep - grep 搜索子目录
我正在尝试在所有文件的目录中搜索文本。它也有望访问子文件夹。文件夹和文件的名称中包含空格字符。我正在使用以下命令进行搜索。
这不会访问带有空格字符的文件夹和文件。关于在命令上更改什么有什么建议吗?
java - 正则表达式搜索和替换大文件中的文本
我正在一个大文件中搜索多行模式,如果发现需要替换内容。我想以一种内存有效的方式来实现这一点。我当前的实现以 4096 字节的形式从文件中读取文本。然后它应用正则表达式搜索替换并将结果保存在缓冲区输出流中。通过不将整个文件加载到内存中,这确实给了我一些内存改进,但是我使用 map/flush 调用进行了很多 IO。需要有关进一步改进我的代码的建议。此外,如果要搜索的模式被分成相邻的块,算法也会失败。关于如何有效地搜索替换分割成相邻块的文本的任何想法。假设:要搜索的文本总是小于 4096 字节。
intellij-idea - 如何在 IntelliJ IDEA 中搜索模式
我不知道如何在我的项目或模块中搜索模式。
我想找到所有具有类似aaabbbccc
或文本的文件aaa123ccc
。当我尝试aaa*ccc
检查正则表达式时,我没有看到任何结果。
我在这里想念什么?
javascript - 使用 Javascript 中的复选框搜索文本框
我正在尝试使用复选框进行文本搜索。例如,如果该人选中该复选框,它将显示用户在搜索框中输入的单词/字母(该单词/字母将被突出显示)。假设我输入“the”,它将搜索段落中的所有“the”并突出显示所有“the”。我已经了解了第一部分,我不明白的是如何使复选框与文本搜索表单连接。因此,当用户选择复选框时,将显示“the”或他们在搜索框中输入的任何单词/字母。
我正在考虑使用 if 语句...
vb.net - 搜索文本文件
我是编程新手,我想知道如何在文本中进行如下搜索。
我有一个包含以下内容的文本
今天我赢了,仿佛他知道了真相,今天我清醒了,就像死了一样,与事物不再有血缘关系
我想要什么并搜索这个文本有这个词
真相如果你
我想存储一个字符串开头的单词“truth”,直到单词有意义,字符串将是
今天我真的很清醒,好像你死了,没有
并省略文本的其余部分。
我已经尝试搜索“真相”这个词的位置,但没有奏效。
php - 大型数据集上的余弦相似度
目前我正在研究数据挖掘、文本比较并找到了这个:https ://en.wikipedia.org/wiki/Cosine_similarity 。
因为我已经成功地实现了这个算法来比较两个字符串,所以我决定尝试一些更复杂的任务来实现。我已经迭代了包含大约250k文档的数据库,并将数据库中的一个随机文档与该数据库中的整个文档进行了比较。
比较所有这些项目的时间:316.35898590088 秒,即 - > 5 分钟来比较所有 250k 文档!
由于这个结果,出现了许多问题,我不想提出一些建议。为了清楚起见,首先我将描述一些可能有用的细节。
- 作为编程语言选择了PHP。
- 文档存储在 MySQL 中。
- 余弦相似度函数的实现只包含这个函数,没有停用词和任何其他花哨的东西。
问题
- 有什么办法可以达到更好的性能吗?我应该从哪里开始,通过调整算法(即提前准备向量等),通过使用其他技术等?
- 我应该如何以及在哪里存储这些比较结果。例如,我想打印一些图表,我可以通过相似度分数查看所有这些 250k 文档,以便我可以识别哪些最相似等等。
javascript - JS在数组中搜索
最初,问题是我必须得到一些通知,当用户在 JqueryUI 自动完成中输入的术语(项目中的城市名称)与集合中的任何内容不匹配时(输入“我的甜蜜城市”并且它不匹配 [莫斯科,新 -北京约克])。所以我将重写我的代码以手动搜索数组,但我有一个问题——数组搜索如何像自动完成一样?
mongodb - MongoDB文本搜索添加语言
是否可以在 MongoDB 支持的现有语言中添加一种语言?喜欢定义自定义停用词?我想使用斯洛文尼亚语的文本搜索。