问题标签 [information-retrieval]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1105 问题

0 投票

2 回答

280 浏览

indexing - 在大型数据库中搜索（非常）近似子字符串

我正在尝试在大型数据库中搜索长而近似的子字符串。例如，查询可能是一个 1000 个字符的子字符串，它可能与匹配项相差数百个编辑的 Levenshtein 距离。我听说索引 q-gram 可以做到这一点，但我不知道实现细节。我也听说 Lucene 可以做到，但是 Lucene 的 levenshtein 算法是否足够快，可以进行数百次编辑？也许是抄袭检测领域之外的东西？任何建议表示赞赏。

2010-08-07T22:26:14.890

0 投票

2 回答

728 浏览

algorithm - 如何对不断发展的数据流进行聚类

我想增量地聚集文本文档，将它们作为数据流读取，但似乎存在问题。大多数术语权重选项都基于使用 TF-IDF 作为特征权重的向量空间模型。然而，在我们的案例中，现有属性的 IDF 会随着每个新数据点而变化，因此之前的聚类不再有效，因此任何流行的算法（如 CluStream、CURE、BIRCH）都不能应用，因为它们假定了固定维度的静态数据。任何人都可以将我重定向到与此相关的任何现有研究或提供建议吗？谢谢！

algorithm machine-learning cluster-analysis information-retrieval tf-idf

2010-08-28T08:09:53.860

0 投票

1 回答

279 浏览

javascript - HTML\PHP - 如何获取用户（访问者）的信息

当用户访问您的网站时，如何获取用户信息？

IP地址
MAC地址
用户配置文件名称
操作系统名称
操作系统版本
操作系统注册到（名称/公司）
计算机名称
浏览器名称
浏览器版本
ISP 名称/Internet 连接提供商名称
连接类型
位置 - 城市/国家（基于 IP）

javascript html tcp information-retrieval

2010-08-31T00:17:54.383

0 投票

6 回答

3595 浏览

python - 存储倒排索引

我正在做一个关于信息检索的项目。我使用 Hadoop/Python 制作了一个完整的倒排索引。Hadoop 将索引输出为 (word,documentlist) 对，这些对被写入文件中。为了快速访问，我使用上述文件创建了一个字典（哈希表）。我的问题是，我如何在磁盘上存储这样一个索引，它也具有快速访问时间。目前我正在使用 python pickle 模块存储字典并从中加载，但它会将整个索引一次带入内存（或者是吗？）。请提出一种有效的存储和搜索索引的方法。

我的字典结构如下（使用嵌套字典）

{word : {doc1:[locations], doc2:[locations], ....}}

这样我就可以通过 dictionary[word].keys() ... 等获取包含单词的文档。

python information-retrieval inverted-index

2010-09-10T19:29:56.637

0 投票

3 回答

139 浏览

web - Google 爬虫会存储哪些信息？

.. 网络爬虫如何推断网站上信息的语义？在单独的答案中列出排名信号。

web web-crawler information-retrieval

2010-09-11T10:26:38.253

0 投票

6 回答

14455 浏览

python - Python：存储与字典中的键关联的列表值

我知道 python 字典如何存储键：值元组。在我正在处理的项目中，我需要存储与列表值关联的键。例如：key -> [0,2,4,5,8] 其中，key 是来自文本文件的单词，列表值包含代表单词出现的 DocID 的整数。

一旦我在另一个文档中找到相同的单词，我需要将该 DocID 附加到列表中。

我怎样才能做到这一点？

python information-retrieval

2010-09-12T06:55:37.333

0 投票

2 回答

403 浏览

python - Python：列表/集合的交集

def boolean_search_and(self, text):

此代码适用于两个标记，例如：text= "Hello World" 和标记 = ['hello', 'world']。我想将它概括为多个标记，因此文本可以是一个句子，也可以是整个文本文件。
self._inverted_index 是将令牌保存为键的字典，值是键/令牌出现的 DocID。

你好 -> [1,2,5,6]
世界 -> [1,3,5,7,8]
结果：
你好和世界 -> [1,5]

我想达到以下结果：说，（（（你好和计算机）和科学）和世界）

我正在努力使这项工作适用于多个单词，而不仅仅是两个单词。我今天早上开始使用 python，所以我不知道它必须提供的很多功能。

有任何想法吗？

python information-retrieval

2010-09-13T04:00:19.350

0 投票

3 回答

197 浏览

java - 维基百科：跨多种语言的页面

我想为我的项目使用维基百科转储。我的项目需要以下信息。

对于 wikipedia 条目，我想知道包含该页面的其他语言是什么？
我想要 csv 或其他常见格式的可下载数据。

有没有办法获取这些数据？

谢谢巴拉

java nlp wikipedia information-retrieval

2010-09-13T22:41:59.160

0 投票

5 回答

1129 浏览

python - 请查看 python 代码以提高其性能

我正在做一个信息检索任务。我建立了一个简单的搜索引擎。InvertedIndex 是一个 python 字典对象，它被序列化（用 python 术语腌制）到一个文件。这个文件的大小是 InvertedIndex，只有 6.5MB。

所以，我的代码只是解开它并搜索查询并根据 TF-IDF 分数对匹配的文档进行排名。听起来没什么大不了的吧？

它在 30 分钟前开始运行并且仍在运行。运行我的 100 行 python 脚本的私有字节和虚拟大小pythonw.exe分别为 88MB 和 168MB。

当我尝试使用较小尺寸的索引时，它很快。是python还是我的代码？为什么这么慢？

python performance information-retrieval

2010-09-27T04:14:31.477

0 投票

2 回答

2603 浏览

machine-learning - 机器学习/信息检索项目

我正在读硕士。在计算机科学和刚刚完成源的第一年。（这是一个为期两年的课程）。很快我就必须提交一份硕士申请。项目。我选择了以下主题。

“机器学习对信息检索系统中文档排序的适用性”。研究人员一直在使用各种机器学习算法对文档进行排名。因此，作为项目的第一阶段，我将进行完整的文献调查，并找出当前方法的优缺点。在项目的第二阶段，我将提出一种新的（修改后的）算法，以克服当前方法的局限性。

实际上我的问题是这种类型的项目是否适合作为理学硕士。项目？此外，如果有人在信息检索领域有一些有趣的想法，是否可以与我分享这些想法。

谢谢

machine-learning information-retrieval

2010-09-29T10:24:37.010

1 2 3 4 5 6 7 8 9 10

问题标签 [information-retrieval]

Reference