问题标签 [information-retrieval]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1105 问题

0 投票

2 回答

6716 浏览

c# - N-gram 的 C# 算法

我打算使用本文中的 n-gram代码。该算法产生这些三元组结果：

对于文本the quick red

然而wikipedia认为它应该是：

（由“_”表示的空格）。

什么是正确的？还有其他 C# 实现吗？

c#text-mining information-retrieval n-gram

2010-09-30T08:53:33.257

0 投票

3 回答

1031 浏览

python - Python：列表列表字典

执行此代码时出现索引错误：列表索引超出范围。

上面的代码生成一个字典索引，该索引将“术语”存储为键，并将术语出现在其中的文档编号存储为列表。例如：如果“cat”一词出现在文档 1.txt、5.txt 和 7.txt 中，则字典将具有：cat <- [1,5,7]

现在，我必须修改它以添加词频，所以如果单词 cat 在文档 1 中出现两次，在文档 5 中出现三次，在文档 7 中出现一次：预期结果：term <-[[docnumber, term freq], [docnumber, term freq]] <-- 字典中的列表列表！！！猫 <- [[1,2],[5,3],[7,1]]

我玩弄了代码，但没有任何效果。我不知道要修改此数据结构以实现上述目的。

提前致谢。

python information-retrieval

2010-10-05T02:59:27.897

0 投票

2 回答

410 浏览

information-retrieval - 除了BM25，还有哪些排名功能？

除了BM25，还有哪些排名功能？我在哪里找到有关此主题的信息？

information-retrieval

2010-10-07T22:02:03.630

0 投票

1 回答

157 浏览

information-retrieval - 网络信息提取

我想创建一个显示来自许多网站的产品的购物搜索引擎，我想知道如何从这些网站检索有关产品的信息。我对搜索引擎部分不感兴趣，但对使用自动生成的模板以自动方式从网页中提取产品信息感兴趣。有没有人知道一些很好的算法供这个/论文阅读..

information-retrieval

2010-10-12T15:23:21.060

0 投票

3 回答

3089 浏览

python - 在倒排索引中搜索普通查询

我有一个嵌套 python 字典形式的完整倒排索引。它的结构是：

{word：{ doc_name：[location_list]}}

例如让字典被称为索引，那么对于一个单词“垃圾邮件”，条目将如下所示：

{垃圾邮件：{ doc1.txt：[102,300,399]，doc5.txt：[200,587]}}

因此，包含任何单词的文档可以由index[word].keys()给出，并且该文档中的频率由len(index[word][document])

现在我的问题是，如何在这个索引中实现正常的查询搜索。即给定一个包含让我们说 4 个单词的查询，查找包含所有四个匹配项的文档（按总出现频率排名），然后查找包含 3 个匹配项的文档，依此类推....

使用 S. Lott 的答案添加了此代码。这是我写的代码。它完全按照我的意愿工作，（只需要一些输出格式）但我知道它可以改进。

请评论....谢谢。

python information-retrieval inverted-index

2010-10-15T18:11:50.763

0 投票

1 回答

88 浏览

search-engine - 如何获取网络搜索查询的日志？

如果我可以对我的研究进行搜索日志分析，那将会有所帮助。是否可以使用搜索 API（Google、Yahoo、Bing）创建指定时间跨度内的网络搜索查询日志，或者是否可以根据要求提供？

search-engine information-retrieval

2010-10-27T13:56:21.347

0 投票

2 回答

1775 浏览

python - 什么是正确的标记化算法？& 错误：TypeError：强制转换为 Unicode：需要字符串或缓冲区，找到列表

我正在做一个信息检索任务。作为预处理的一部分，我想做。

停用词删除
代币化
词干（波特词干）

最初，我跳过了标记化。结果我得到了这样的条款：

所以，现在我意识到了代币化的重要性。是否有任何用于英语标记化的标准算法？基于string.whitespace和常用的标点符号。我写

我收到TypeError: coercing to Unicode: need string or buffer, list found错误！
如何改进这个标记化例程？

python nlp tokenize information-retrieval

2010-10-31T14:12:43.240

0 投票

2 回答

3758 浏览

r - 使用 R 进行文本检索

我一直在使用 R 的文本挖掘包，它确实是一个很棒的工具。我没有找到检索支持，或者我缺少某些功能。如何使用 R 的文本挖掘包实现一个简单的 VSM 模型？

r information-retrieval text-mining vsm tf-idf

2010-11-01T15:49:21.680

0 投票

1 回答

2981 浏览

c# - 如何在 C# 中查找显卡核心速度、内存速度和着色器速度（如果适用）？

我正在和几个队友一起为我大学的软件工程课程做一个项目。有关我们正在创建的程序的详细信息，请查看我们的网站。它是在 Visual Studio 2010 中开发的 C# Windows 窗体应用程序。

我们在检索某些我们正在寻找的显卡信息时遇到了问题。具体来说，显卡的核心时钟速度、内存时钟速度和着色器时钟速度（如果适用）。通过使用 WMI，我们已经能够找到显卡的品牌和型号（在我个人的情况下为“NVIDIA”和“GeForce GTX 465”）、当前驱动程序以及连接到本地计算机的每个显卡有多少专用 RAM。

如果不购买像 CPU-Z 之类的 SDK，我已经进行了搜索和搜索，无法找到任何方法来查找此信息。

c#gpu information-retrieval

2010-11-10T00:36:37.337

0 投票

1 回答

127 浏览

database - 为命名实体识别提取名称、位置、组织和地点的特征

我正在尝试对 twitter 数据集中的实体进行注释，主要包括名称、组织、位置和地点。我正在尝试为此目的生成一个功能集。关于在哪里以及如何获取所有此类实体的列表或数据库的任何建议，以便我可以使用它们来注释实体。

database information-retrieval

2010-11-21T00:03:39.047

1 2 3 4 5 6 7 8 9 10

问题标签 [information-retrieval]

Reference