问题标签 [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows - 是否有流行的网络数据抓取工具?
我正在做信息提取的工作,我需要一个从网页抓取数据的工具,windows有没有流行的工具?
facebook - 试图获取 facebook/twitter/myspace 状态和其他数据以进行统计
我想知道是否有人知道如何通过这些社交网络从全球数百万人那里收集数据以获取统计数据。对于我正在尝试做的项目,我需要这个,并且不需要知道发布此类信息(例如状态、评论、有关他们的信息等)的实际人员,以免违反任何数据隐私法。
我需要知道今天有多少人对奥巴马发表评论,他们的性别是什么(女性或男性)等等。
这有可能吗?
太感谢了
text-processing - 术语聚类库?
有人知道做术语聚类的开源\免费库吗?
谢谢,亚尼夫
algorithm - 查找作为特定集合子集的集合
假设我有 4 个不同的值 A、B、C、D,并附加了一组标识符。
A={1,2,3,4,5}
B={8,9,4}
C={3,4,5}
D={12,8}
并且给定一组标识符 {1,30,3,4,5,12,8} 我希望它返回 C 和 D。即从一组 S 是超集的集合中检索所有集合。
是否有任何算法可以有效地执行此任务(最好具有低内存复杂性。使用外部设备存储数据不是一种选择)?一个简单的解决方案是为超集 S 中的每个成员检索包含该成员的集合列表(基本上是倒排索引),并为每个返回的集合检查他的所有成员是否都在超集中。不幸的是,由于平均而言,超集将包含每个集合的至少一个成员,因此这种方法会产生显着且不可接受的性能损失。
我正在尝试在 Java 中执行此操作。集合由整数组成,它们标识的值是一个对象。集合的集合不是静态的,并且在执行过程中必然会发生变化。不过,设定的数量会有一些限制。套装大小不受限制。但平均而言,它在 1 到 20 之间。
search - 在民俗学中搜索。如何解决同义词问题?
有人可以阐明如何在 del.icio.us 等网站上进行搜索吗?
如果我输入“js”(1)、“javascript”(2) 或“java script”(3) 作为我对美味的查询,我将指向有关 Java Script 的资源。但是,根据查询返回的结果集是不同的(del.icio.us 系统为“js”和“javascript”查询返回不同的书签集)。
因此,系统似乎并没有真正意识到 (1) 和 (2) 是彼此的同义词。相反,它会尝试将我的查询与在关联标签或标题中包含查询字符串的书签进行匹配。那是对的吗?
您将如何“教育”系统所有 (1)、(2)、(3) 实际上是同义词,并且无论选择何种查询,用户都应该看到所有与 Java Script 相关的资源?
这样做是个好主意吗?
谢谢,格雷格
python - 如何自动填充相关问题
我想在我的应用程序中获得相关的 [事物/问题],类似于 StackOverflow 所做的,当您从 Title 字段中跳出时。
我只能想到一种方法,我认为这可能足够快
- 在所有 [事物] 的标题语料库中搜索标题,并返回前 x 个匹配项。我们可以使用任何用于站点搜索的搜索。
还有什么其他方法可以做到这一点,它们足够快,因为这将在 tabout 上发送,因此大型服务器端处理对它来说是不可行的。
我只是在寻找这样做的方法,但我正在使用 mysql 和 DJango,所以如果你的答案使用它,那就更好了。
[我想不出好的标签,所以请随意编辑]
c# - 我应该如何保存我的数据?
我有两个这样的结构:
对于每个键盘按键和鼠标按钮单击,我希望保存此数据,但我不知道哪种方式最有效地存储/处理它?有没有更好的方法来处理数据 - 我不确定使用两个结构是否比将两者合并为一个更好?
编辑:我正在做一个键盘和鼠标统计应用程序,它将存储按键和鼠标点击的数量以及按下的按钮,我的计算机的位置和时间,我希望每次按钮时都保存这些数据被按下。不一定每次都写入磁盘,但至少将其存储在内存中,直到我想将其保存到磁盘。
编辑:我认为如果我将两个结构分开,我在存储它们时不会创建太多死数据,然后如果我将它们分开,我可以轻松搜索/排序。想法?
algorithm - 自索引(和传统索引)算法 - 要分享的实现和建议?
作为研究项目的一部分,我目前正在寻找自索引算法的开源实现,即传统倒排索引的压缩形式,可产生诸如更快查找和/或更少占用空间等良好特性。
你知道自索引算法的任何开源实现吗?您还有其他有趣的索引算法或数据结构要分享吗?
欢迎所有语言和许可证变体。
database - 什么是不可序列化时间表?在事务数据库中
谁能解释一下事务数据库中什么是不可序列化的。请给我一个例子。r1(x) r2(x)w1(y) c2 c1 这是不可序列化的吗?