问题标签 [full-text-indexing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1027 浏览

postgresql - PostgreSQL:杜松子酒最大字段大小

我目前正在评估许多全文索引解决方案,并且正在使用本机 postgres FT。

我正在尝试使用 GIN 索引来索引我的数据。但是字段大小有限制,我在插入数据时遇到一些错误,说“巨大的元组”

据我了解,它与字段大小直接相关。但是这个限制没有写在我找到的任何文档中,所以有人知道这个限制吗,如果有什么方法可以改变它?

谢谢

PS:我在 postgresql 源代码中找到了这个定义: ((BLCKSZ - SizeOfPageHeaderData - \ MAXALIGN(sizeof(GinPageOpaqueData))) / 3 - sizeof(ItemIdData)) 如果没有人有一些快速的答案,我会尝试使用它。

0 投票
1 回答
1856 浏览

sql - SQL 自由文本等

如果我使用 like '%fish%' 则返回以下内容

水族金鱼片

但是如果我使用 Contains([Description],' "fish*" ' ) 是不是有什么我可以做的吗?

基本上我想在任何地方返回任何有鱼这个词的东西。

0 投票
2 回答
1925 浏览

c# - Lucene.NET 共享主机

我试图让 Lucene.NET 在共享托管环境中工作。Mascix over on codeproject在这里概述了他是如何在 Godaddy 上工作的。我正在 iqsolutions 上尝试这个。

他发布的两个示例在我的本地计算机上都运行良好,并且都在共享托管服务器上引发了相同的错误:

我尝试在 web.config 中添加对 Lucene.NET 组件的直接引用,如下所示:

但这也会引发自己的错误。我想我的问题是:我错过了一些简单的东西还是服务器端设置会导致它根本不起作用?

0 投票
1 回答
482 浏览

mysql - 如何查看 MySql 全文索引?

  1. MySql 全文搜索是否使用索引?
  2. 如果是这样,我如何查看索引条目表?

我可以使用 VIEW 查询查看索引统计信息。但是,我只想查看索引记录条目表。

0 投票
1 回答
1451 浏览

sql - 对 HTML/XML 数据进行 SQL 全文搜索

我在 cms 数据库 (SQL 2005) 上有一个 sql 全文目录。数据库将 CMS 页面内容保存在作为全文目录一部分的 ntext 列中。正如预期的那样,搜索会考虑页面内容中的 xml 标签,因此搜索“H1”会返回所有带有 H1 标签的页面。

是否可以在全文搜索中应用过滤器来仅索引 xml 标记中的数据。

我可以看到 SQL 全文搜索可以索引/搜索 .html 二进制类型或 xml 列。但是,如您所见,设置与此略有不同。

非常感谢,

亚当

0 投票
2 回答
584 浏览

words - 很多文章的单词列表 - 文档术语矩阵

我有近 15 万篇土耳其语文章。我将使用文章进行自然语言处理研究。我想在处理文章后存储每篇文章的单词和频率。

我现在将它们存储在 RDBS 中。

我有 3 张桌子:

文章 -> article_id,text
Words -> word_id, type, word
Words-Article -> id, word_id, article_id, frequency (index for word_id, index for article_id )

我会查询

  • 一篇文章中的所有单词
  • 每篇文章一个词的频率
  • 单词出现在所有文章和哪些文章中

我在 word-article 表中有数百万行。在这个项目中,我一直使用 RDBS。从mysql开始,现在使用oracle。但是我不想用oracle,想要比mysql更好的性能。

此外,我必须在具有 4gb 内存的机器上处理这项工作。
简单地说,如何存储文档术语矩阵并对其进行查询?性能是必要的。“键值数据库”可以在性能上击败 mysql 吗?或者什么可以打败mysql?

如果您的答案编程语言取决于,我正在用 python 编写代码。但是 C/C++ , Java 没问题。

0 投票
5 回答
3245 浏览

java - Google App Engine 的最佳 Java 文本索引库是什么?

到目前为止,我知道指南针可以处理这项工作。但是用指南针索引看起来相当昂贵。有没有更轻的替代品?

0 投票
1 回答
499 浏览

full-text-indexing - 尝试索引文件时,狐猴收到格式错误的文档错误

我在这里浏览了一些狐猴索引教程:

http://www.lemurproject.org/tutorials/begin_indexing-1.php

我创建了一个“语料库”文件夹,其中包含一个带有看似正确格式的文件的文档:

并创建了以下配置文件:

但是,当我运行时:

我得到了一个神秘的例外:

我查看了源代码中的相关函数,但没有什么特别突出的地方。有任何想法吗?

0 投票
1 回答
84 浏览

sql-server - 在 sql server 中使用全文索引时会给我更好的性能吗?在每个地方或某些情况下?

我使用 NHibernate ORM 编写了一个大型应用程序。在数据库级别使用全文索引对我的应用程序性能有好处吗?它会给我更好的搜索性能吗?

0 投票
1 回答
538 浏览

sql-server - SQL Server 中的 itemcount 属性应该匹配什么

如果itemcount属性与索引行数不完全匹配,那是个问题吗?有没有一种数字方法可以确保我拥有完整的全文索引?

更新:该属性fulltextcatalogproperty('database','itemcount')不等于索引表的行数。差了几千。这是否表明索引缺少信息,或者您希望 itemcount 不完全匹配?