问题标签 [information-retrieval]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
443 浏览

algorithm - 标准分数的时间框架

为了寻找热门话题,我将标准分数与移动平均线结合使用:

(非常感谢你,尼克斯)

到目前为止,我这样做如下:

无论什么时候,对于历史趋势,我只是 24 小时返回。假设我们现在有 1 月 12 日下午 3:45:

current_trend = 点击 [1 月 11 日 3:45 - 1 月 12 日 3:45]

历史趋势 = 点击 [1 月 10 日 3:45 - 1 月 11 日 3:45] + 点击 [1 月 9 日 3:45 - 1 月 10 日 3:45] + 点击 [1 月 8 日 3:45 - 1 月 9 日 3: 45] + ...

但这真的足够吗?如果我总是在 00:00 点开始不是更好吗?例如,对于相同的数据(下午 3 点 45 分)以这种方式:

current_trend = 点击 [Jan 11, 0:00 - Jan 12, 0:00]

历史趋势 = 点击 [1 月 10 日 0:00 - 1 月 11 日 0:00] + 点击 [1 月 9 日 0:00 - 1 月 10 日 0:00] + 点击 [1 月 9 日 0:00 - 1 月 9 日 0: 0] + ...

我相信结果会有所不同。但是哪种方法会给您带来更好的结果?

我希望你已经理解我的问题,你可以帮助我。:) 提前致谢!

0 投票
2 回答
408 浏览

python - 打开特定网页时如何分析 IE 活动

我想使用 urllib 库从特定网页中检索数据。问题是为了打开这个页面,一些数据应该先发送到服务器。如果我使用 IE 执行此操作,我需要先更新一些复选框,然后按“显示数据”按钮,这会打开所需的页面。查看源代码,我看到按下“显示数据”会提交某种形式 - 那里没有特定的 url 地址。我无法通过查看代码来弄清楚哪些参数被发送到服务器......我认为可能更简单的方法是在按下“显示数据”按钮后分析 IE 和网络服务器之间的通信。如果我能清楚地看到 IE 做了什么,我可以用 urllib 来模仿它。

最简单的方法是什么?

0 投票
1 回答
116 浏览

web-applications - 用于确定系统信息的基于 Web 的脚本

我知道基于 Web 的脚本可用于识别访问者的特征(显示分辨率、Java 版本、操作系统、架构、渲染引擎等)

但是有什么东西可以给我在vistors PC上驻留的系统内存量吗?

0 投票
5 回答
4910 浏览

text - 推荐相关文章的可靠算法有哪些?

很常见的情况,我敢打赌。你有一个博客或新闻网站,你有很多文章或博客或任何你称之为的东西,你想在每一个的底部推荐其他似乎相关的东西。

让我们假设每个项目的元数据很少。也就是说,没有标签、类别。视为一大块文本,包括标题和作者姓名。

你如何去寻找可能相关的文件?

我对实际的算法很感兴趣,而不是现成的解决方案,尽管我可以看看用 ruby​​ 或 python 实现的东西,或者依赖 mysql 或 pgsql。

编辑:目前的答案很好,但我想看到更多。也许是一两件事的一些非常简单的示例代码。

0 投票
2 回答
9851 浏览

artificial-intelligence - 什么是 11pt 平均精度指标?

我有两个问题

1-什么是“11pt平均精度指标”?

2-以及如何在信息检索中使用它?

谢谢

0 投票
8 回答
2433 浏览

language-agnostic - 如何更正用户输入(类似于谷歌“你的意思是什么?”)

我有以下要求: -

我有很多(比如 100 万个)值(名称)。用户将键入搜索字符串。

我不希望用户正确拼写名称。

所以,我想做一种谷歌“你的意思是”。这将列出我的数据存储中的所有可能值。这里有一个类似但不相同的问题。这没有回答我的问题。

我的问题: - 1)我认为将这些数据存储在 RDBMS 中是不可取的。因为那样我就不会对 SQL 查询进行过滤。而且我必须进行全表扫描。那么,在这种情况下应该如何存储数据呢?

2)第二个问题与相同。但是,只是为了我的问题的完整性:我如何搜索大型数据集?假设数据集中有一个名字 Franky。如果用户键入为 Phranky,我如何匹配 Franky?我必须遍历所有名称吗?

我遇到了Levenshtein Distance,这将是找到可能的字符串的好方法。但同样,我的问题是我是否必须对数据存储中的所有 100 万个值进行操作?

3)我知道,谷歌通过观察用户行为来做到这一点。但我想在不观察用户行为的情况下做到这一点,即使用我还不知道的距离算法。因为前一种方法需要大量搜索才能开始!

4)正如柯克布罗德赫斯特在下面的回答中指出的那样,有两种可能的情况:-

  • 用户输入错误的单词(编辑距离算法)
  • 不认识单词的用户猜测(语音匹配算法)

我对这两个都很感兴趣。它们实际上是两个不同的东西。例如,Sean 和 Shawn 听起来一样,但编辑距离为 3 - 太高而不能被视为错字。

0 投票
7 回答
545 浏览

comparison - 有什么好方法可以找到两个文本体的“相关性”?

这就是问题所在——我有几千个小文本片段,从几个单词到几个句子不等——最大的片段在磁盘上大约有 2k。我希望能够相互比较,并计算相关性因子,以便向用户显示相关信息。

有什么好的方法可以做到这一点?是否有已知的算法可以做到这一点,是否有任何 GPL 解决方案等?

我不需要它来实时运行,因为我可以预先计算一切。我更关心获得好的结果而不是运行时。

我只是想在编写自己的东西之前先问问 Stack Overflow 社区。必须有人在此之前找到了很好的解决方案。

0 投票
2 回答
281 浏览

search - 应该使用哪个开源搜索引擎?

我的目标是建立一个新闻提要和博客提要的聚合器,以便轻松搜索/跟踪其中的实体。我一直在寻找许多解决方案,例如 Terrier、Lucene、SWISH-E 等。

基本上,我只能找到对这些引擎进行的 2 个比较研究来源,其中一个已经过时了。基本上我想要一个搜索引擎,它可以用于数据量不是太大但索引会很频繁的情况,每 30 分钟左右一次。我觉得在这种情况下,Terrier 不是一个好工具。当数据量大且更新频率低时效果更好。在信息检索领域工作过的人可以提供一些建议吗?

0 投票
4 回答
1527 浏览

parsing - 寻找信息检索/文本挖掘应用程序或库

我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文,通常是 HTML 格式,但有时是文本,或者我们使用 PDF/Word/RTF 附件中的信息。然后,我们应用正则表达式(有时分几个步骤)以获取以表格形式提供的信息(您可以想到航班表、酒店表等)。请注意,即使我们解析 HTML,这也不是网络抓取。

目前我们正在使用 QL2 的 WebQL 引擎,但出于商业原因,我们正在寻求替换它。你能推荐其他引擎吗?它必须在 Linux 上运行并且可以从 Java 访问(Java API 是最好的,但 Web 服务也是很好的解决方案)。它还必须支持用于文本提取的正则表达式,而不仅仅是基于 HTML 结构。

0 投票
3 回答
3749 浏览

database - 创建巨大倒排索引的方法

我想创建一个大约 10 6 个术语的大倒排索引。你会建议什么方法?我正在考虑使用快速二进制密钥存储数据库,如 Tokyo cabinet、voldemort 等。编辑:我过去曾尝试使用 MySQL 存储一个包含两个整数的表来表示倒排索引,但即使第一列有一个 db索引,查询很慢。我认为对于这些情况,SQL 数据库有太多开销、事务开销、查询解析等。我正在寻找哪些技术或算法方法可以扩展,同时具有良好的响应时间和性能。出于研究目的,我正在推出自己的解决方案。