问题标签 [information-retrieval]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
3316 浏览

data-structures - 位数组有哪些替代方案?

我有一个信息检索应用程序,它创建数以千万计的位数组。数组中“设置”位的数量变化很大,从全部清除到全部设置。目前,我使用的是直截了当的位数组 ( java.util.BitSet),所以我的每个位数组都需要几兆字节。

我的计划是查看前N位的基数,然后决定其余部分使用什么数据结构。显然,一些数据结构更适合非常稀疏的位数组,而另一些数据结构在设置了大约一半的位时更好(当设置了大多数位时,我可以使用否定将其视为一组稀疏的零)。

  • 什么结构可能在每个极端都有好处?
  • 中间有吗?

以下是一些限制或提示:

  1. 这些位仅设置一次,并且按索引顺序设置。
  2. 我需要 100% 的准确率,所以像布隆过滤器这样的东西还不够好。
  3. 建立集合后,我需要能够有效地迭代“集合”位。
  4. 这些位是随机分布的,因此游程编码算法不太可能比一个简单的位索引列表好多少。
  5. 我正在尝试优化内存利用率,但速度仍然很重要

具有开源 Java 实现的东西是有帮助的,但不是绝对必要的。我对基础知识更感兴趣。

0 投票
4 回答
6467 浏览

regex - 日期时间格式的动态正则表达式

是否有现有的解决方案可以根据给定的日期时间格式模式动态创建正则表达式?支持的日期时间格式模式无关紧要(JodaDateTimeFormatjava.text.SimpleDateTimeFormat其他)。

作为一个具体的例子,对于给定的日期时间格式,如dd/MM/yyyy hh:mm,它应该生成相应的正则表达式来匹配指定格式内的日期时间。

0 投票
2 回答
335 浏览

search - 执行“相关搜索”功能的方法

我见过一些在您执行搜索时列出相关搜索的网站,即它们会建议您可能感兴趣的其他搜索查询。

我想知道在中型站点中建模的最佳方法(没有足够的流量来依赖访问者统计数据来推断关系)。我最初的想法是存储每个唯一查询的前 10 个结果,然后当执行新搜索以查找与前 10 个结果中的一些匹配但理想情况下不匹配所有结果的所有历史搜索(匹配所有这些结果可能建议等效搜索,因此作为建议没有那么有用)。

我想有些人之前已经完成了这个功能,并且可能能够提供一些不同方法的想法。我不一定要寻找一个成功的想法,因为解决方案无疑会根据网站的大小和性质而有很大差异。

0 投票
5 回答
1307 浏览

algorithm - 搜索引擎不精确计数(大约 xxx 个结果)

当您在 Google 中搜索时(我几乎可以肯定 Altavista 做了同样的事情)它说“结果 1-10 of about xxxx”...

这一直让我感到惊讶......它是什么意思“关于”?
他们怎么能粗略计算呢?
我确实理解为什么他们无法在合理的时间内得出一个精确的数字,但他们是如何达到这个“近似”的呢?

我敢肯定,我错过了这个背后的很多理论......

0 投票
4 回答
1055 浏览

file - 用于文档检索的签名文件

我想知道您是否知道在哪里可以找到有关如何为文档检索构建签名文件的信息。
你知道是否有一些我可以使用或查看的代码吗?
我必须在 linux 平台下用 C++ 创建一个签名文件。

更新:对不起,我很欣赏帮助,但我指的签名文件不是一种验证文档的方式,而是一种索引文档的方式。


http://en.wikipedia.org/wiki/Signature_files


任何帮助将不胜感激。

谢谢,

0 投票
3 回答
1030 浏览

nlp - 自然语言/文本挖掘和 Reddit/社会新闻网站

我认为有大量与 reddit、digg 或 news.google.com 等网站相关的自然语言数据。

我对文本挖掘进行了一些研究,但找不到如何使用这些工具来解析 reddit 之类的东西。

你能想出什么样的应用程序?

0 投票
5 回答
2573 浏览

information-retrieval - 寻找信息科学、信息检索方面的书籍

到目前为止,这是我的清单上的内容。我想知道同样的其他人,也许技术性更强,也许更少

被炸成碎片:数字爆炸后的你的生活、自由和幸福 - Ableson、Leeden 和 Lewis
Glut:通过时代掌握信息 - Wright
信息规则 - Varian 和 Shapiro
网络龙:搜索引擎技术的神话 - Witten, Gori 和 Numerico

我在文本挖掘方面见过一些,它们包括
Web Data Mining - Liu
现代信息检索 - Baeza-Yates,Ribiero-Neto

也在寻找像
http://www.stat.columbia.edu/~gelman/blog/
http://www.econlib.org/library/Enc/Information.html这样的博客记录

或诸如
结构形式的发现之类的论文

0 投票
1 回答
5691 浏览

lucene - 如何创建更复杂的 Lucene 查询字符串?

这个问题是从这个问题衍生出来的。我的调查是双重的,但因为两者都是相关的,所以我认为将它们放在一起是个好主意。

  • 如何以编程方式创建查询。我知道我可以开始创建字符串并使用查询解析器解析该字符串。但是当我从其他资源中收集零碎信息时,有一种编程方式可以做到这一点。
  • Lucene 查询的语法规则是什么?

- 编辑 -

我将为我想要进行的查询提供一个需求示例:
假设我有 5 个字段:

  1. 年龄
  2. 地址
  3. 一切

所有字段都是可选的,最后一个字段应搜索所有其他字段。我检查了每个字段,看看它是否是 IsNullOrEmpty()。如果不是,我想附加我的查询的一部分,以便添加相关的搜索部分。
名字和姓氏应该完全匹配,并且比其他字段具有更大的权重。年龄是一个字符串,应该完全匹配。地址可以按顺序变化。一切也可以按顺序变化。

我该怎么办?

0 投票
3 回答
1552 浏览

selenium - 使用 Selenium 检索数据

我想从我附近的丰业银行分行获取营业时间。

基本 URL 是: http: //maps.scotiabank.com/

那我,

单击“分支”单选框。

点击“周六开放”复选框。

在搜索框中输入“B3H 1M7”(我的邮政编码)。

单击搜索按钮。

单击弹出的第一个结果(Micmac 购物中心)。

将营业时间存储为变量(称为 businessHours)。

现在我被困住了。

如何将分配给变量的数据导出到文本文件或以后可以查看的其他任何地方?我不确定 Selenium 是否可以做到这一点,但如果不是,你能告诉我如何做到这一点的替代方法吗?

下面是我拥有的当前 Selenium 脚本的 HTML 代码。

0 投票
2 回答
1176 浏览

email - Solr 中的动态字段

在我当前的项目中,我需要索引来自多个邮箱的所有电子邮件及其附件。

我将使用 Solr,但我不知道构建索引结构的最佳方法是什么。我的第一种方法是:

但现在我不确定它是否是最好的结构。我不认为我可以通过单个查询搜索一个术语(例如stackoverflow)并知道该术语在哪里(例如attachmentBody_1_2_3等)。

有人对我的索引结构有更好的建议吗?