问题标签 [information-retrieval]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
10 回答
3597 浏览

nlp - Crawling The Internet

I want to crawl for specific things. Specifically events that are taking place like concerts, movies, art gallery openings, etc, etc. Anything that one might spend time going to.

How do I implement a crawler?

I have heard of Grub (grub.org -> Wikia) and Heritix (http://crawler.archive.org/)

Are there others?

What opinions does everyone have?

-Jason

0 投票
4 回答
240 浏览

nlp - 匹配包含带有排列的单词的行

假设您有一个包含 varchar 列的大表。

您将如何匹配在 varchar col 中包含“首选”一词但数据有些嘈杂并且偶尔包含拼写错误的行,例如:

上述拼写错误中“首选”一词的排列似乎表现出家族相似性,但它们几乎没有共同点。请注意,拆分每个单词并在每一行中的每个单词上运行levenshtein将非常昂贵。

更新:

还有其他几个这样的例子,例如“restricted”:

0 投票
4 回答
1596 浏览

lucene - Lucene 如何计算多字段分数?

这是 Lucene 评分公式:

score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d))

多场得分呢?

分数是直接求和或平均还是..?

0 投票
11 回答
67433 浏览

algorithm - 计算热门话题或标签的最佳方法是什么?

许多网站提供一些统计数据,例如“过去 24 小时内最热门的话题”。例如,Topix.com 在其“新闻趋势”部分中显示了这一点。在那里,您可以看到提及次数增长最快的主题。

我也想为一个主题计算这样的“嗡嗡声”。我怎么能这样做?该算法应该对总是不太热的主题进行加权。通常(几乎)没有人提及的话题应该是最热门的话题。

Google 提供“Hot Trends”,topix.com 显示“Hot Topics”,fav.or.it 显示“Keyword Trends”——所有这些服务都有一个共同点:它们只向您展示当前异常热门的即将到来的趋势。

诸如“Britney Spears”、“weather”或“Paris Hilton”之类的词不会出现在这些列表中,因为它们总是热门且频繁出现。这篇文章称之为“布兰妮斯皮尔斯问题”。

我的问题:您如何编写算法或使用现有算法来解决这个问题?拥有一个包含最近 24 小时搜索的关键字的列表,该算法应该向您显示 10 个(例如)最热门的关键字。

我知道,在上面的文章中,提到了某种算法。我试图用 PHP 对其进行编码,但我认为它不会起作用。它只是找到大多数,不是吗?

我希望你能帮助我(编码示例会很棒)。

0 投票
2 回答
449 浏览

search - 个人知识库文件的搜索索引工具

我有大量的基本文本、rtf、html、pdf 和 chm 文件存储在 USB 密钥中作为个人知识库。

到目前为止,为了检索信息,我使用了标准的文件搜索工具(Windows 搜索、grep 等)。然而如今,由于数据量庞大,蛮力搜索可能需要几分钟时间。PDF 和 CHM 也更难搜索。

因此,我正在寻找一种在这种情况下运行良好的文本索引工具。我想避免对 RDBMS(即 SQL Server、MySQL)的依赖,因为我会在许多不同的计算机上使用它并且不希望安装麻烦。便携式工具将是理想的。在某些机器上,我也经常无法访问互联网。

提供一个简单的 GUI 允许查询输入和快速访问结果的东西会很棒。

我考虑过自己写这篇文章,但是我现在有时间做更多的工作。

0 投票
3 回答
476 浏览

iphone - 2 部 iphone 可以多快交换有关倾斜/位置的信息?

我想知道将有关某部特定 iPhone 的倾斜和位置(不是 gps)的信息传达给另一部需要多长时间。2 部 iphone 可以同时发送和接收这些信息吗?3个iphone怎么样?我对能够同时发送和接收并根据在半秒内收到的这些信息做出有条件的决定的应用程序感兴趣。

有什么可以拍的吗?如果是这样,是蓝牙还是wifi更好?

非常感谢,杰克

0 投票
1 回答
223 浏览

nlp - 用于搜索引擎的俄语文档语料库

我正在研究一种跨语言信息检索,它接受英语查询并搜索俄语文档。要评估这个系统,最好有一组俄罗斯文档可供搜索。有没有人知道我可以搜索的文档集合或我可以轻松地将一堆俄罗斯文档(维基百科除外)拼凑在一起的网站?

文档可以是任何东西,但如果它们位于人类知识的某个特定领域(计算机科学、建筑、工程、艺术、文学分析等),那就太好了。

0 投票
1 回答
180 浏览

c++ - 如何向我的应用程序添加搜索功能

我正在编写存储大量文本文件的 Windows 应用程序(使用 Borland C++ Builder)。我希望用户能够非常快速地搜索这些文件,所以我需要一个索引和搜索库。我不使用数据库,而是使用我自己的文件格式来存储文档(所有文件都在一个文件中)。

Windows 有这样的库吗?它应该根据请求将文档添加/删除到索引中,并查找类似于 Google 查询的文档(“car house -payment”)。

0 投票
3 回答
26943 浏览

database - 如何解析来自 Google 快讯的数据?

首先,除了解析 Google 发送给您的电子邮件的文本之外,您如何将 Google 警报信息输入数据库?

似乎没有 Google Alerts API。

如果您必须解析文本,您将如何解析电子邮件的相关部分?

0 投票
3 回答
132 浏览

iphone - 信息检索的移动上下文

我使用移动 Wiki 软件的上下文。上下文用于从大量信息单元中为特定情况提供正确的信息。

  • 例如:当您在客户处时,系统会检查您的位置并向您显示基于位置的信息。

  • 另一个例子:您在客户那里,系统检查您的日历以找到适合您在那里约会的信息。

移动(智能手机)软件使用了哪些其他上下文资源(除了位置和日历数据)?