问题标签 [information-retrieval]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1105 问题

0 投票

4 回答

494 浏览

information-retrieval - 什么是适合数据分类项目的编程语言

我想轻松实现一个数据分类项目，所以我正在寻找为此提供库的语言。你能推荐合适的语言吗？

information-retrieval

2009-10-20T07:11:55.097

0 投票

4 回答

121 浏览

sql - 如何从 SQL Server 数据库中检索文件？

我已成功将文件上传到我的 SQL Server 数据库中。我可以将信息带回 GridView。我无法弄清楚如何创建一个超链接来实际打开文件。

2009-10-23T17:24:39.793

0 投票

4 回答

1114 浏览

algorithm - 潜在语义索引 (LSI) 是一种统计分类算法吗？

潜在语义索引 (LSI) 是一种统计分类算法吗？为什么或者为什么不？

基本上，我试图弄清楚为什么统计分类的维基百科页面没有提到 LSI。我刚刚开始研究这些东西，我试图了解所有不同的分类方法是如何相互关联的。

algorithm semantic-web information-retrieval classification

2009-10-27T22:40:44.220

0 投票

2 回答

3342 浏览

python - 除了 NLTK，Python 最好的信息检索库是什么？

用于分析 Internet 上的文件！

python information-retrieval text-mining

2009-10-28T03:13:53.650

0 投票

2 回答

1122 浏览

lucene - Lucene评分问题

我对 Lucene 的评分功能有疑问，我无法弄清楚。到目前为止，我已经能够编写这段代码来重现它。

我从运行它得到的输出是：

我只是不明白为什么the rolling stones与the rolling stones tribute. 根据 lucene 的文档，一个字段的标记越多，归一化因子应该越小，因此the rolling stones tribute应该比the rolling stones.

有任何想法吗？

lucene information-retrieval scoring

2009-11-04T12:45:50.760

0 投票

4 回答

138 浏览

information-retrieval - 关于设计的问题

我和我的队友有一个非常具有挑战性的新项目要做，我们应该在下周提交。我们对如何做到这一点一无所知，并且确实需要帮助。我们是本科生，刚接触信息检索和人工智能，真的需要你的想法。

项目大致是：

当文档中引用专家时，请找到持相反意见的专家并了解他/她对该主题的看法。

我们可以自由使用任何编程语言，但我们并不关心编程。我们希望帮助我们开始。请给我们一个关于如何设计这样一个系统以及如何在互联网上检索信息的大致想法。我们应该如何得到他的意见，然后找到相反的意见？

information-retrieval

2009-11-20T18:46:10.523

0 投票

6 回答

911 浏览

architecture - 如何学习正式的自上而下的软件架构方法？

我是一名对信息检索感兴趣的软件开发人员。目前我正在处理我的第三个搜索引擎项目，并且对一次又一次编写的样板代码数量感到非常沮丧，同样的错误等等。

基本搜索引擎是一个非常简单的野兽，可以用由两个“层”组成的正式语言来描述：

“原语层”（或公理，内核语言 - 不知道如何命名它们）。它们包括几个集合（作为一组资源 - 文件、网站）、集合上的关系（作为“站点 A 链接到站点 B”）和简单的操作，例如“打开资源 A 的流”、“从流中读取记录”、 'merge N 个流'，'index set of records by field F'等。还有很多数据转换，如'save stream in YAML format'，'load stream from XML format'等。
“应用层”——构成搜索引擎生命周期的几个非常高级的操作，如“收获新资源”、“抓取收获的资源”、“将抓取的资源合并到数据库”、“索引抓取的资源”、“合并索引”等等。每一个高级操作都可以用从 1 开始的“原语”来表示。

这种高级表示可以很容易地测试，甚至可以正式证明，并用所选的编程语言实现（或代码生成）。

那么问题来了：是否有人以这种方式设计系统——形式上、严格（甚至可能在代数/群论的层面上），在严格的自上而下的方法中？我可以阅读以了解什么？

architecture information-retrieval formal-methods formal-verification

user164418

2009-11-25T11:56:17.660

0 投票

2 回答

248 浏览