“information-retrieval”的相关标签问题

0 投票

1 回答

443 浏览

algorithm - 标准分数的时间框架

为了寻找热门话题，我将标准分数与移动平均线结合使用：

（非常感谢你，尼克斯）

到目前为止，我这样做如下：

无论什么时候，对于历史趋势，我只是 24 小时返回。假设我们现在有 1 月 12 日下午 3:45：

current_trend = 点击 [1 月 11 日 3:45 - 1 月 12 日 3:45]

历史趋势 = 点击 [1 月 10 日 3:45 - 1 月 11 日 3:45] + 点击 [1 月 9 日 3:45 - 1 月 10 日 3:45] + 点击 [1 月 8 日 3:45 - 1 月 9 日 3: 45] + ...

但这真的足够吗？如果我总是在 00:00 点开始不是更好吗？例如，对于相同的数据（下午 3 点 45 分）以这种方式：

current_trend = 点击 [Jan 11, 0:00 - Jan 12, 0:00]

历史趋势 = 点击 [1 月 10 日 0:00 - 1 月 11 日 0:00] + 点击 [1 月 9 日 0:00 - 1 月 10 日 0:00] + 点击 [1 月 9 日 0:00 - 1 月 9 日 0: 0] + ...

我相信结果会有所不同。但是哪种方法会给您带来更好的结果？

我希望你已经理解我的问题，你可以帮助我。：）提前致谢！

2009-06-16T18:26:13.083

0 投票

2 回答

408 浏览

我想使用 urllib 库从特定网页中检索数据。问题是为了打开这个页面，一些数据应该先发送到服务器。如果我使用 IE 执行此操作，我需要先更新一些复选框，然后按“显示数据”按钮，这会打开所需的页面。查看源代码，我看到按下“显示数据”会提交某种形式 - 那里没有特定的 url 地址。我无法通过查看代码来弄清楚哪些参数被发送到服务器......我认为可能更简单的方法是在按下“显示数据”按钮后分析 IE 和网络服务器之间的通信。如果我能清楚地看到 IE 做了什么，我可以用 urllib 来模仿它。

最简单的方法是什么？

python html internet-explorer information-retrieval

2009-06-29T05:50:57.770

0 投票

1 回答

116 浏览

web-applications - 用于确定系统信息的基于 Web 的脚本

我知道基于 Web 的脚本可用于识别访问者的特征（显示分辨率、Java 版本、操作系统、架构、渲染引擎等）

但是有什么东西可以给我在vistors PC上驻留的系统内存量吗？

web-applications scripting system information-retrieval

2009-07-23T20:20:44.247

0 投票

5 回答

4910 浏览

text - 推荐相关文章的可靠算法有哪些？

很常见的情况，我敢打赌。你有一个博客或新闻网站，你有很多文章或博客或任何你称之为的东西，你想在每一个的底部推荐其他似乎相关的东西。

让我们假设每个项目的元数据很少。也就是说，没有标签、类别。视为一大块文本，包括标题和作者姓名。

你如何去寻找可能相关的文件？

我对实际的算法很感兴趣，而不是现成的解决方案，尽管我可以看看用 ruby 或 python 实现的东西，或者依赖 mysql 或 pgsql。

编辑：目前的答案很好，但我想看到更多。也许是一两件事的一些非常简单的示例代码。

text machine-learning information-retrieval document-classification

2009-08-10T12:38:20.823

0 投票

2 回答

9851 浏览

artificial-intelligence - 什么是 11pt 平均精度指标？

我有两个问题

1-什么是“11pt平均精度指标”？

2-以及如何在信息检索中使用它？

谢谢

artificial-intelligence machine-learning information-retrieval

2009-08-15T06:19:55.893

0 投票

8 回答

2433 浏览

language-agnostic - 如何更正用户输入（类似于谷歌“你的意思是什么？”）

我有以下要求： -

我有很多（比如 100 万个）值（名称）。用户将键入搜索字符串。

我不希望用户正确拼写名称。

所以，我想做一种谷歌“你的意思是”。这将列出我的数据存储中的所有可能值。这里有一个类似但不相同的问题。这没有回答我的问题。

我的问题： - 1）我认为将这些数据存储在 RDBMS 中是不可取的。因为那样我就不会对 SQL 查询进行过滤。而且我必须进行全表扫描。那么，在这种情况下应该如何存储数据呢？

2）第二个问题与此相同。但是，只是为了我的问题的完整性：我如何搜索大型数据集？假设数据集中有一个名字 Franky。如果用户键入为 Phranky，我如何匹配 Franky？我必须遍历所有名称吗？

我遇到了Levenshtein Distance，这将是找到可能的字符串的好方法。但同样，我的问题是我是否必须对数据存储中的所有 100 万个值进行操作？

3）我知道，谷歌通过观察用户行为来做到这一点。但我想在不观察用户行为的情况下做到这一点，即使用我还不知道的距离算法。因为前一种方法需要大量搜索才能开始！

4）正如柯克布罗德赫斯特在下面的回答中指出的那样，有两种可能的情况：-

用户输入错误的单词（编辑距离算法）
不认识单词的用户猜测（语音匹配算法）

我对这两个都很感兴趣。它们实际上是两个不同的东西。例如，Sean 和 Shawn 听起来一样，但编辑距离为 3 - 太高而不能被视为错字。

language-agnostic nlp spell-checking information-retrieval autosuggest

2009-08-16T17:03:28.427

0 投票

7 回答

545 浏览

comparison - 有什么好方法可以找到两个文本体的“相关性”？

这就是问题所在——我有几千个小文本片段，从几个单词到几个句子不等——最大的片段在磁盘上大约有 2k。我希望能够相互比较，并计算相关性因子，以便向用户显示相关信息。

有什么好的方法可以做到这一点？是否有已知的算法可以做到这一点，是否有任何 GPL 解决方案等？

我不需要它来实时运行，因为我可以预先计算一切。我更关心获得好的结果而不是运行时。

我只是想在编写自己的东西之前先问问 Stack Overflow 社区。必须有人在此之前找到了很好的解决方案。

comparison full-text-search information-retrieval string-comparison

2009-08-31T18:15:20.203

0 投票

2 回答

281 浏览

search - 应该使用哪个开源搜索引擎？

我的目标是建立一个新闻提要和博客提要的聚合器，以便轻松搜索/跟踪其中的实体。我一直在寻找许多解决方案，例如 Terrier、Lucene、SWISH-E 等。

基本上，我只能找到对这些引擎进行的 2 个比较研究来源，其中一个已经过时了。基本上我想要一个搜索引擎，它可以用于数据量不是太大但索引会很频繁的情况，每 30 分钟左右一次。我觉得在这种情况下，Terrier 不是一个好工具。当数据量大且更新频率低时效果更好。在信息检索领域工作过的人可以提供一些建议吗？

search open-source information-retrieval

2009-09-13T17:49:56.570

0 投票

4 回答

1527 浏览

parsing - 寻找信息检索/文本挖掘应用程序或库

我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文，通常是 HTML 格式，但有时是文本，或者我们使用 PDF/Word/RTF 附件中的信息。然后，我们应用正则表达式（有时分几个步骤）以获取以表格形式提供的信息（您可以想到航班表、酒店表等）。请注意，即使我们解析 HTML，这也不是网络抓取。

目前我们正在使用 QL2 的 WebQL 引擎，但出于商业原因，我们正在寻求替换它。你能推荐其他引擎吗？它必须在 Linux 上运行并且可以从 Java 访问（Java API 是最好的，但 Web 服务也是很好的解决方案）。它还必须支持用于文本提取的正则表达式，而不仅仅是基于 HTML 结构。

parsing information-retrieval html-content-extraction text-mining information-extraction

2009-09-23T11:05:40.673

0 投票

3 回答

3749 浏览

database - 创建巨大倒排索引的方法

我想创建一个大约 10 ^{6 个}术语的大倒排索引。你会建议什么方法？我正在考虑使用快速二进制密钥存储数据库，如 Tokyo cabinet、voldemort 等。编辑：我过去曾尝试使用 MySQL 存储一个包含两个整数的表来表示倒排索引，但即使第一列有一个 db索引，查询很慢。我认为对于这些情况，SQL 数据库有太多开销、事务开销、查询解析等。我正在寻找哪些技术或算法方法可以扩展，同时具有良好的响应时间和性能。出于研究目的，我正在推出自己的解决方案。

database information-retrieval inverted-index

2009-10-15T08:58:26.917

问题标签 [information-retrieval]

algorithm - 标准分数的时间框架

python - 打开特定网页时如何分析 IE 活动

web-applications - 用于确定系统信息的基于 Web 的脚本

text - 推荐相关文章的可靠算法有哪些？

artificial-intelligence - 什么是 11pt 平均精度指标？

language-agnostic - 如何更正用户输入（类似于谷歌“你的意思是什么？”）

comparison - 有什么好方法可以找到两个文本体的“相关性”？

search - 应该使用哪个开源搜索引擎？

parsing - 寻找信息检索/文本挖掘应用程序或库

database - 创建巨大倒排索引的方法

问题标签 [information-retrieval]

Reference