问题标签 [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python:列表列表字典
执行此代码时出现索引错误:列表索引超出范围。
上面的代码生成一个字典索引,该索引将“术语”存储为键,并将术语出现在其中的文档编号存储为列表。例如:如果“cat”一词出现在文档 1.txt、5.txt 和 7.txt 中,则字典将具有:cat <- [1,5,7]
现在,我必须修改它以添加词频,所以如果单词 cat 在文档 1 中出现两次,在文档 5 中出现三次,在文档 7 中出现一次:预期结果:term <-[[docnumber, term freq], [docnumber, term freq]] <-- 字典中的列表列表!!!猫 <- [[1,2],[5,3],[7,1]]
我玩弄了代码,但没有任何效果。我不知道要修改此数据结构以实现上述目的。
提前致谢。
information-retrieval - 除了BM25,还有哪些排名功能?
除了BM25,还有哪些排名功能?我在哪里找到有关此主题的信息?
information-retrieval - 网络信息提取
我想创建一个显示来自许多网站的产品的购物搜索引擎,我想知道如何从这些网站检索有关产品的信息。我对搜索引擎部分不感兴趣,但对使用自动生成的模板以自动方式从网页中提取产品信息感兴趣。有没有人知道一些很好的算法供这个/论文阅读..
python - 在倒排索引中搜索普通查询
我有一个嵌套 python 字典形式的完整倒排索引。它的结构是:
{word:{ doc_name:[location_list]}}
例如让字典被称为索引,那么对于一个单词“垃圾邮件”,条目将如下所示:
{垃圾邮件:{ doc1.txt:[102,300,399],doc5.txt:[200,587]}}
因此,包含任何单词的文档可以由index[word].keys()给出,并且该文档中的频率由len(index[word][document])
现在我的问题是,如何在这个索引中实现正常的查询搜索。即给定一个包含让我们说 4 个单词的查询,查找包含所有四个匹配项的文档(按总出现频率排名),然后查找包含 3 个匹配项的文档,依此类推....
**
使用 S. Lott 的答案添加了此代码。这是我写的代码。它完全按照我的意愿工作,(只需要一些输出格式)但我知道它可以改进。
**
请评论....谢谢。
search-engine - 如何获取网络搜索查询的日志?
如果我可以对我的研究进行搜索日志分析,那将会有所帮助。是否可以使用搜索 API(Google、Yahoo、Bing)创建指定时间跨度内的网络搜索查询日志,或者是否可以根据要求提供?
python - 什么是正确的标记化算法?& 错误:TypeError:强制转换为 Unicode:需要字符串或缓冲区,找到列表
我正在做一个信息检索任务。作为预处理的一部分,我想做。
- 停用词删除
- 代币化
- 词干(波特词干)
最初,我跳过了标记化。结果我得到了这样的条款:
所以,现在我意识到了代币化的重要性。是否有任何用于英语标记化的标准算法?基于string.whitespace
和常用的标点符号。我写
- 我收到
TypeError: coercing to Unicode: need string or buffer, list found
错误! - 如何改进这个标记化例程?
r - 使用 R 进行文本检索
我一直在使用 R 的文本挖掘包,它确实是一个很棒的工具。我没有找到检索支持,或者我缺少某些功能。如何使用 R 的文本挖掘包实现一个简单的 VSM 模型?
c# - 如何在 C# 中查找显卡核心速度、内存速度和着色器速度(如果适用)?
我正在和几个队友一起为我大学的软件工程课程做一个项目。有关我们正在创建的程序的详细信息,请查看我们的网站。它是在 Visual Studio 2010 中开发的 C# Windows 窗体应用程序。
我们在检索某些我们正在寻找的显卡信息时遇到了问题。具体来说,显卡的核心时钟速度、内存时钟速度和着色器时钟速度(如果适用)。通过使用 WMI,我们已经能够找到显卡的品牌和型号(在我个人的情况下为“NVIDIA”和“GeForce GTX 465”)、当前驱动程序以及连接到本地计算机的每个显卡有多少专用 RAM。
如果不购买像 CPU-Z 之类的 SDK,我已经进行了搜索和搜索,无法找到任何方法来查找此信息。
database - 为命名实体识别提取名称、位置、组织和地点的特征
我正在尝试对 twitter 数据集中的实体进行注释,主要包括名称、组织、位置和地点。我正在尝试为此目的生成一个功能集。关于在哪里以及如何获取所有此类实体的列表或数据库的任何建议,以便我可以使用它们来注释实体。