问题标签 [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
indexing - 在大型数据库中搜索(非常)近似子字符串
我正在尝试在大型数据库中搜索长而近似的子字符串。例如,查询可能是一个 1000 个字符的子字符串,它可能与匹配项相差数百个编辑的 Levenshtein 距离。我听说索引 q-gram 可以做到这一点,但我不知道实现细节。我也听说 Lucene 可以做到,但是 Lucene 的 levenshtein 算法是否足够快,可以进行数百次编辑?也许是抄袭检测领域之外的东西?任何建议表示赞赏。
algorithm - 如何对不断发展的数据流进行聚类
我想增量地聚集文本文档,将它们作为数据流读取,但似乎存在问题。大多数术语权重选项都基于使用 TF-IDF 作为特征权重的向量空间模型。然而,在我们的案例中,现有属性的 IDF 会随着每个新数据点而变化,因此之前的聚类不再有效,因此任何流行的算法(如 CluStream、CURE、BIRCH)都不能应用,因为它们假定了固定维度的静态数据。任何人都可以将我重定向到与此相关的任何现有研究或提供建议吗?谢谢 !
javascript - HTML\PHP - 如何获取用户(访问者)的信息
当用户访问您的网站时,如何获取用户信息?
- IP地址
- MAC地址
- 用户配置文件名称
- 操作系统名称
- 操作系统版本
- 操作系统注册到(名称/公司)
- 计算机名称
- 浏览器名称
- 浏览器版本
- ISP 名称/Internet 连接提供商名称
- 连接类型
- 位置 - 城市/国家(基于 IP)
python - 存储倒排索引
我正在做一个关于信息检索的项目。我使用 Hadoop/Python 制作了一个完整的倒排索引。Hadoop 将索引输出为 (word,documentlist) 对,这些对被写入文件中。为了快速访问,我使用上述文件创建了一个字典(哈希表)。我的问题是,我如何在磁盘上存储这样一个索引,它也具有快速访问时间。目前我正在使用 python pickle 模块存储字典并从中加载,但它会将整个索引一次带入内存(或者是吗?)。请提出一种有效的存储和搜索索引的方法。
我的字典结构如下(使用嵌套字典)
{word : {doc1:[locations], doc2:[locations], ....}}
这样我就可以通过 dictionary[word].keys() ... 等获取包含单词的文档。
web - Google 爬虫会存储哪些信息?
.. 网络爬虫如何推断网站上信息的语义?在单独的答案中列出排名信号。
python - Python:存储与字典中的键关联的列表值
我知道 python 字典如何存储键:值元组。在我正在处理的项目中,我需要存储与列表值关联的键。例如:key -> [0,2,4,5,8] 其中,key 是来自文本文件的单词,列表值包含代表单词出现的 DocID 的整数。
一旦我在另一个文档中找到相同的单词,我需要将该 DocID 附加到列表中。
我怎样才能做到这一点?
python - Python:列表/集合的交集
def boolean_search_and(self, text):
此代码适用于两个标记,例如:text= "Hello World" 和标记 = ['hello', 'world']。我想将它概括为多个标记,因此文本可以是一个句子,也可以是整个文本文件。
self._inverted_index 是将令牌保存为键的字典,值是键/令牌出现的 DocID。
你好 -> [1,2,5,6]
世界 -> [1,3,5,7,8]
结果:
你好和世界 -> [1,5]
我想达到以下结果:说,(((你好和计算机)和科学)和世界)
我正在努力使这项工作适用于多个单词,而不仅仅是两个单词。我今天早上开始使用 python,所以我不知道它必须提供的很多功能。
有任何想法吗?
java - 维基百科:跨多种语言的页面
我想为我的项目使用维基百科转储。我的项目需要以下信息。
- 对于 wikipedia 条目,我想知道包含该页面的其他语言是什么?
- 我想要 csv 或其他常见格式的可下载数据。
有没有办法获取这些数据?
谢谢巴拉
python - 请查看 python 代码以提高其性能
我正在做一个信息检索任务。我建立了一个简单的搜索引擎。InvertedIndex 是一个 python 字典对象,它被序列化(用 python 术语腌制)到一个文件。这个文件的大小是 InvertedIndex,只有 6.5MB。
所以,我的代码只是解开它并搜索查询并根据 TF-IDF 分数对匹配的文档进行排名。听起来没什么大不了的吧?
它在 30 分钟前开始运行并且仍在运行。运行我的 100 行 python 脚本的私有字节和虚拟大小pythonw.exe
分别为 88MB 和 168MB。
当我尝试使用较小尺寸的索引时,它很快。是python还是我的代码?为什么这么慢?
machine-learning - 机器学习/信息检索项目
我正在读硕士。在计算机科学和刚刚完成源的第一年。(这是一个为期两年的课程)。很快我就必须提交一份硕士申请。项目。我选择了以下主题。
“机器学习对信息检索系统中文档排序的适用性”。研究人员一直在使用各种机器学习算法对文档进行排名。因此,作为项目的第一阶段,我将进行完整的文献调查,并找出当前方法的优缺点。在项目的第二阶段,我将提出一种新的(修改后的)算法,以克服当前方法的局限性。
实际上我的问题是这种类型的项目是否适合作为理学硕士。项目?此外,如果有人在信息检索领域有一些有趣的想法,是否可以与我分享这些想法。
谢谢