问题标签 [information-retrieval]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
280 浏览

indexing - 在大型数据库中搜索(非常)近似子字符串

我正在尝试在大型数据库中搜索长而近似的子字符串。例如,查询可能是一个 1000 个字符的子字符串,它可能与匹配项相差数百个编辑的 Levenshtein 距离。我听说索引 q-gram 可以做到这一点,但我不知道实现细节。我也听说 Lucene 可以做到,但是 Lucene 的 levenshtein 算法是否足够快,可以进行数百次编辑?也许是抄袭检测领域之外的东西?任何建议表示赞赏。

0 投票
2 回答
728 浏览

algorithm - 如何对不断发展的数据流进行聚类

我想增量地聚集文本文档,将它们作为数据流读取,但似乎存在问题。大多数术语权重选项都基于使用 TF-IDF 作为特征权重的向量空间模型。然而,在我们的案例中,现有属性的 IDF 会随着每个新数据点而变化,因此之前的聚类不再有效,因此任何流行的算法(如 CluStream、CURE、BIRCH)都不能应用,因为它们假定了固定维度的静态数据。任何人都可以将我重定向到与此相关的任何现有研究或提供建议吗?谢谢 !

0 投票
1 回答
279 浏览

javascript - HTML\PHP - 如何获取用户(访问者)的信息

当用户访问您的网站时,如何获取用户信息?

  • IP地址
  • MAC地址
  • 用户配置文件名称
  • 操作系统名称
  • 操作系统版本
  • 操作系统注册到(名称/公司)
  • 计算机名称
  • 浏览器名称
  • 浏览器版本
  • ISP 名称/Internet 连接提供商名称
  • 连接类型
  • 位置 - 城市/国家(基于 IP)
0 投票
6 回答
3595 浏览

python - 存储倒排索引

我正在做一个关于信息检索的项目。我使用 Hadoop/Python 制作了一个完整的倒排索引。Hadoop 将索引输出为 (word,documentlist) 对,这些对被写入文件中。为了快速访问,我使用上述文件创建了一个字典(哈希表)。我的问题是,我如何在磁盘上存储这样一个索引,它也具有快速访问时间。目前我正在使用 python pickle 模块存储字典并从中加载,但它会将整个索引一次带入内存(或者是吗?)。请提出一种有效的存储和搜索索引的方法。

我的字典结构如下(使用嵌套字典)

{word : {doc1:[locations], doc2:[locations], ....}}

这样我就可以通过 dictionary[word].keys() ... 等获取包含单词的文档。

0 投票
3 回答
139 浏览

web - Google 爬虫会存储哪些信息?

.. 网络爬虫如何推断网站上信息的语义?在单独的答案中列出排名信号。

0 投票
6 回答
14455 浏览

python - Python:存储与字典中的键关联的列表值

我知道 python 字典如何存储键:值元组。在我正在处理的项目中,我需要存储与列表值关联的键。例如:key -> [0,2,4,5,8] 其中,key 是来自文本文件的单词,列表值包含代表单词出现的 DocID 的整数。

一旦我在另一个文档中找到相同的单词,我需要将该 DocID 附加到列表中。

我怎样才能做到这一点?

0 投票
2 回答
403 浏览

python - Python:列表/集合的交集

def boolean_search_and(self, text):

此代码适用于两个标记,例如:text= "Hello World" 和标记 = ['hello', 'world']。我想将它概括为多个标记,因此文本可以是一个句子,也可以是整个文本文件。
self._inverted_index 是将令牌保存为键的字典,值是键/令牌出现的 DocID。

你好 -> [1,2,5,6]
世界 -> [1,3,5,7,8]
结果:
你好和世界 -> [1,5]

我想达到以下结果:说,(((你好和计算机)和科学)和世界)

我正在努力使这项工作适用于多个单词,而不仅仅是两个单词。我今天早上开始使用 python,所以我不知道它必须提供的很多功能。

有任何想法吗?

0 投票
3 回答
197 浏览

java - 维基百科:跨多种语言的页面

我想为我的项目使用维基百科转储。我的项目需要以下信息。

  1. 对于 wikipedia 条目,我想知道包含该页面的其他语言是什么?
  2. 我想要 csv 或其他常见格式的可下载数据。

有没有办法获取这些数据?

谢谢巴拉

0 投票
5 回答
1129 浏览

python - 请查看 python 代码以提高其性能

我正在做一个信息检索任务。我建立了一个简单的搜索引擎。InvertedIndex 是一个 python 字典对象,它被序列化(用 python 术语腌制)到一个文件。这个文件的大小是 InvertedIndex,只有 6.5MB。

所以,我的代码只是解开它并搜索查询并根据 TF-IDF 分数对匹配的文档进行排名。听起来没什么大不了的吧?

它在 30 分钟前开始运行并且仍在运行。运行我的 100 行 python 脚本的私有字节和虚拟大小pythonw.exe分别为 88MB 和 168MB。

当我尝试使用较小尺寸的索引时,它很快。是python还是我的代码?为什么这么慢?

0 投票
2 回答
2603 浏览

machine-learning - 机器学习/信息检索项目

我正在读硕士。在计算机科学和刚刚完成源的第一年。(这是一个为期两年的课程)。很快我就必须提交一份硕士申请。项目。我选择了以下主题。

“机器学习对信息检索系统中文档排序的适用性”。研究人员一直在使用各种机器学习算法对文档进行排名。因此,作为项目的第一阶段,我将进行完整的文献调查,并找出当前方法的优缺点。在项目的第二阶段,我将提出一种新的(修改后的)算法,以克服当前方法的局限性。

实际上我的问题是这种类型的项目是否适合作为理学硕士。项目?此外,如果有人在信息检索领域有一些有趣的想法,是否可以与我分享这些想法。

谢谢