问题标签 [text-search]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
18 回答
97206 浏览

algorithm - 谷歌“你的意思是什么?” 算法工作?

我一直在为投资组合管理工具开发一个内部网站。有很多文本数据、公司名称等。一些搜索引擎能够非常快速地响应“您的意思是:xxxx”的查询,这给我留下了深刻的印象。

我需要能够智能地接受用户查询,并且不仅可以使用原始搜索结果进行响应,还可以使用“您的意思是吗?” 当有一个很可能的替代答案等时的响应

[我在ASP.NET中开发(VB - 不要反对我!)]

更新:好的,如果没有数百万“未付费用户”,我怎么能模仿呢?

  • 为每个“已知”或“正确”术语生成拼写错误并执行查找?
  • 其他一些更优雅的方法?
0 投票
2 回答
1558 浏览

eclipse - 在 Zend Studio for Eclipse 中查找文件的最快方法是什么?

我希望能够在 Zend Studio for Eclipse 中快速查找文件,而无需通过包含数十个文件夹和数百个文件的树形视图进行路由。

我真正追求的是在我输入时过滤文件名的东西。想想 Mac 上的聚光灯,或 Vista 开始菜单上的过滤器。

0 投票
2 回答
10675 浏览

.net - 以编程方式搜索 PDF 文件中的文本并告诉页码?

有一些工具允许提取 PDF 文件的整个文本部分,以便对 PDF 进行全文索引。

我需要的是一种搜索某些字符串的方法,如果在 PDF 文件中找到它们,返回页码?

0 投票
7 回答
870 浏览

c# - 如何以编程方式搜索书中的单词?

我需要开发一个可以搜索一本书并列出包含给定关键字的所有页面和行的应用程序。

对于以其他方式拆分的书籍,例如按章节和经文拆分的圣经;他们将能够搜索包含某个关键字的所有经文。或者,在某些章节和经文中搜索关键字。

我应该以什么格式存储这本书?是否应该将其存储到 SQL 数据库中?

哪种格式最容易搜索而不是最容易存储?

0 投票
35 回答
256203 浏览

java - 在几十个 JAR 文件中的某个地方找到一个类?

如何在大量 jar 文件中找到特定的类名?

(寻找实际的类名,而不是引用它的类。)

0 投票
1 回答
1050 浏览

wpf - WPF 组合框突出显示

在 WPF 中,当我在组合框中输入一些文本时,它将突出显示以我输入的文本开头的项目。此突出显示将搜索我在组合框中输入的整个文本。但相反,我希望文本搜索只匹配第一个字母。这个怎么做?

实际上,我想让 TextSearch.Text 始终是第一个字符。

0 投票
3 回答
1117 浏览

c++ - 如何找到句子中包含“w”的第一个单词

我怎样才能找到我的句子中的第一个单词有 'w' 字符。这个字符可以出现在我的单词中的任何地方。句子示例“嗨 xyzwy!你在这里做什么?” 所以结果应该是“xyzwy”。

0 投票
4 回答
1233 浏览

php - IP 地址的快速文件搜索算法

问题

查找包含 IP 地址的文件中是否存在 IP 地址的最快方法是:

约束

  • 没有数据库(例如 MySQL、PostgreSQL、Oracle 等)
  • 允许不频繁的预处理(参见可能性部分)
  • 不必每次查询都加载文件会很好(131Kb)
  • 使用低于 5 兆字节的磁盘空间
  • 没有额外的 PHP 模块

文件详情

  • 每行一个 IP 地址
  • 9500+ 行

可能的解决方案

  • 创建一个目录层次结构(基数树?)然后使用is_dir()(遗憾的是,这使用了 87 兆字节)
0 投票
1 回答
1378 浏览

python - Python - 计算文本搜索相关性分数的库

我的想法是实现类似于 MySQL MATCH / AGAINST 关键字的执行。

你知道一个计算文本搜索相关性分数的 python 库吗?

如果答案不令人满意,我将使用 Python 连接器连接 MySQL。

0 投票
8 回答
1196 浏览

c++ - 搜索文本中多个字符串之一的有效算法?

我需要在传入的不是很长的文本中搜索给定字符串的出现。字符串在整个会话中都是不变的,并且并不多(~10)。额外的简化是没有任何字符串包含在任何其他字符串中。

我目前正在使用与str1 | str2 | .... 这个任务的性能很重要,所以我想知道我是否可以改进它。并不是说我的编程比 boost 家伙更好,但也许专用实现比一般实现更有效。

由于字符串长时间保持不变,我可以预先构建一个数据结构,如状态转换表。

例如,如果字符串是abcx,bcycz, 并且到目前为止我已经阅读过abc,我应该处于组合状态,这意味着you're either 3 chars into string 1, 2 chars into string 2 or 1 char into string 1. 然后阅读xnext 将使我进入string 1 matched状态等,并且除了xyz将移动到初始状态之外的任何字符,我都不需要缩回b.

任何想法或参考都表示赞赏。