问题标签 [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
information-retrieval - 什么是适合数据分类项目的编程语言
我想轻松实现一个数据分类项目,所以我正在寻找为此提供库的语言。你能推荐合适的语言吗?
sql - 如何从 SQL Server 数据库中检索文件?
我已成功将文件上传到我的 SQL Server 数据库中。我可以将信息带回 GridView。我无法弄清楚如何创建一个超链接来实际打开文件。
algorithm - 潜在语义索引 (LSI) 是一种统计分类算法吗?
潜在语义索引 (LSI) 是一种统计分类算法吗?为什么或者为什么不?
基本上,我试图弄清楚为什么统计分类的维基百科页面没有提到 LSI。我刚刚开始研究这些东西,我试图了解所有不同的分类方法是如何相互关联的。
python - 除了 NLTK,Python 最好的信息检索库是什么?
用于分析 Internet 上的文件!
lucene - Lucene评分问题
我对 Lucene 的评分功能有疑问,我无法弄清楚。到目前为止,我已经能够编写这段代码来重现它。
我从运行它得到的输出是:
我只是不明白为什么the rolling stones
与the rolling stones tribute
. 根据 lucene 的文档,一个字段的标记越多,归一化因子应该越小,因此the rolling stones tribute
应该比the rolling stones
.
有任何想法吗?
information-retrieval - 关于设计的问题
我和我的队友有一个非常具有挑战性的新项目要做,我们应该在下周提交。我们对如何做到这一点一无所知,并且确实需要帮助。我们是本科生,刚接触信息检索和人工智能,真的需要你的想法。
项目大致是:
当文档中引用专家时,请找到持相反意见的专家并了解他/她对该主题的看法。
我们可以自由使用任何编程语言,但我们并不关心编程。我们希望帮助我们开始。请给我们一个关于如何设计这样一个系统以及如何在互联网上检索信息的大致想法。我们应该如何得到他的意见,然后找到相反的意见?
architecture - 如何学习正式的自上而下的软件架构方法?
我是一名对信息检索感兴趣的软件开发人员。目前我正在处理我的第三个搜索引擎项目,并且对一次又一次编写的样板代码数量感到非常沮丧,同样的错误等等。
基本搜索引擎是一个非常简单的野兽,可以用由两个“层”组成的正式语言来描述:
“原语层”(或公理,内核语言 - 不知道如何命名它们)。它们包括几个集合(作为一组资源 - 文件、网站)、集合上的关系(作为“站点 A 链接到站点 B”)和简单的操作,例如“打开资源 A 的流”、“从流中读取记录”、 'merge N 个流','index set of records by field F'等。还有很多数据转换,如'save stream in YAML format','load stream from XML format'等。
“应用层”——构成搜索引擎生命周期的几个非常高级的操作,如“收获新资源”、“抓取收获的资源”、“将抓取的资源合并到数据库”、“索引抓取的资源”、“合并索引”等等。每一个高级操作都可以用从 1 开始的“原语”来表示。
这种高级表示可以很容易地测试,甚至可以正式证明,并用所选的编程语言实现(或代码生成)。
那么问题来了:是否有人以这种方式设计系统——形式上、严格(甚至可能在代数/群论的层面上),在严格的自上而下的方法中?我可以阅读以了解什么?
artificial-intelligence - 信息挖掘、分类、修改
以下场景的任何示例、提示和指导?
我从几个不同的新闻网站检索了更新。然后我分析这些信息以预测世界当前的趋势。
我在搜索上述想法时只能找到有关数据挖掘的信息,但它是针对数据库系统的。虽然数据挖掘与我正在尝试做的类似,但数据库信息中的数据挖掘比我从网站上检索到的更具体。那么有人可以在这方面指导我吗?我非常感谢您对此提供的任何帮助。
谢谢。
python - 基于投票的用户之间的相似性
假设我有一组用户、一组歌曲和每首歌曲的一组投票:
根据歌曲投票计算用户相似度的最有效方法是什么?有没有比遍历每个用户和对每首歌的每次投票更好的方法?
information-retrieval - 如何检索谷歌页面
亲爱的,我现在正在使用网络工具
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=
解析网页。
例如,我们可以解析 newyorktimes 主页,我们这样做:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html
在我们浏览器的地址栏中,它会很好地为我们解析。
然而,它只是失败的谷歌页面。例如,如果我想解析谷歌新闻头版,比如:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn
我总是会收到 500 内部服务器错误。
我确信这与谷歌网站有关,我想我们可能需要一些谷歌 API,有人知道如何为谷歌页面解决这个问题吗?非常感谢。