问题标签 [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - Google 搜索/地图 Linux 集群的软件/硬件结构?
我特别感兴趣的是如何为谷歌搜索或谷歌地图等商业服务处理大量信息。我们都知道他们使用(或至少“做过”)一种 Linux 集群,但它们究竟是如何组织的呢?他们使用什么样的硬件,什么文件系统,网络,最常见的问题是什么?
machine-learning - Ngram IDF 平滑
我正在尝试使用 IDF 分数在我非常庞大的文档语料库中找到有趣的短语。
我基本上需要像亚马逊的统计上不可能的短语,即区分文档与所有其他文档的短语
我遇到的问题是我的数据中的一些 (3,4)-grams 具有超高 idf 实际上由组件组成idf 非常低的 unigrams 和 bigrams。
例如,“你从未尝试过”的 idf 非常高,而每个组件 unigrams 的 idf 都非常低。
我需要想出一个可以接受的函数记录一个 n-gram 及其所有组件 (nk)-grams 的频率,并返回一个更有意义的度量,即该短语将在多大程度上区分父文档与其他文档。
如果我正在处理概率,我会尝试插值或退避模型。我不确定这些模型利用哪些假设/直觉来表现良好,以及它们对 IDF 分数的效果如何。
有人有更好的想法吗?
php - PHP:使用视频和时间码
是否有任何好的库(最好是免费的)来处理视频文件及其时间码?我特别需要两种功能:
- 以尽可能多的格式获取有关视频文件的信息,但最重要的是 QuickTime。例如持续时间、比特率、帧速率、格式、尺寸、显示纵横比、像素纵横比、音频通道、音频频率、音频格式等。
- 使用精确的视频时间码进行数学运算的方法。例如,能够总结几个剪辑的持续时间并获得它们的总长度以及帧和所有。有点像定期工作,除了它也考虑到帧和帧速率。
这个事情谁有经验?有什么可以推荐的吗?
information-retrieval - 如何检索我的 Google 搜索历史记录?
在谷歌网络历史界面中,我可以看到我多年来使用的所有搜索查询,以及我为特定查询访问的页面。有没有办法可以使用计算机程序检索这段历史?我找不到可以做到这一点的 Google API。您是否知道可以做到这一点的工具,或者建议一种方法来实现这一点?
performance - Shingleprinting在实践中如何工作?
我正在尝试使用 shingleprinting 来测量文档相似性。该过程包括以下步骤:
- 创建两个文档 D1、D2的5-shingling
- 使用 64 位散列散列每个 shingle
- 选择从 0 到 2^64-1 的数字的随机排列并应用于 shingle 散列
- 对于每个文档,找到结果值中的最小值
- 如果它们匹配,则将其视为正例,如果不匹配,则将其视为负例
- 重复 3. 到 5. 几次
- 用作
positive_examples / total examples
相似性度量
第 3 步涉及生成一个非常长的序列的随机排列。使用 Knuth-shuffle 似乎是不可能的。有什么捷径吗?请注意,最后我们只需要结果排列的单个元素。
javascript - 使用 Javascript 获取文章的标题/作者/日期信息
我正在尝试构建一个书签,它将获取当前页面/文章的作者和日期信息,以供参考。我知道我可以使用 document.title 和 document.URL 获取页面标题和 url,但是当涉及到其他信息时,我是空白的。有任何想法吗?
tcp - 关于结构 tcp_info 的良好文档
我正在研究获取 tcp 连接的性能参数,其中一个参数是带宽。我打算使用tcp_info
从 linux 2.6 开始支持的结构,它保存有关 tcp 连接的元数据。可以使用getsockopt()
函数调用 on检索信息tcp_info
。我花了很多时间寻找一个很好的文档来解释该结构中的所有参数,但找不到一个。
我还测试了一个小程序来从tcp_info
tcp 连接中检索值,在该连接中我发现测量的 MSS 值在大多数情况下为零。长话短说 - 是否有一个链接可以查看,其中包含完整的详细信息tcp_info
以及使用这些值是否可靠。
java - 向量的余弦相似度,复杂度 < O(n^2)
在浏览了这个网站的类似问题后,我发现了这个: http: //math.nist.gov/javanumerics/jama/和这个:http ://sujitpal.blogspot.com/2008/09/ir-math-with- java-similarity-measures.html
但是,这些似乎在 O(n^2) 中运行。我一直在做一些文档聚类,并注意到即使处理很小的文档集,这种复杂程度也是不可行的。给定,对于点积,我们只需要两个向量中包含的向量项,应该可以将向量放在树中,从而计算具有 n log n 复杂度的点积,其中 n 是唯一项的最少数量2 份文件中的 1 份。
我错过了什么吗?有没有一个java库可以做到这一点?
谢谢
translation - Unicode 字符串上的快速序列对齐
我想运行类似 BLAST 算法的东西来查询一个大型的 unicode 字符串数据库。大多数比对软件(如 BLAST)都需要核苷酸或蛋白质字符串作为输入。但我的输入可能包含任何 Unicode 字符。有人知道可以让我这样做的软件吗?评分矩阵可能只是单位矩阵(没有部分匹配。)
我尝试过 Needleman-Wunsch 和 Smith Waterman,但就我的目的而言,它们太慢了。我需要查询一个大型数据库,就像在 BLAST 中一样。
谢谢!
machine-learning - 信息检索(IR)与数据挖掘与机器学习(ML)
人们经常抛出 IR、ML 和数据挖掘这些术语,但我注意到它们之间有很多重叠之处。
从在这些领域有经验的人看来,这两者之间的界限究竟是什么?