问题标签 [full-text-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
postgresql - PostgreSQL:杜松子酒最大字段大小
我目前正在评估许多全文索引解决方案,并且正在使用本机 postgres FT。
我正在尝试使用 GIN 索引来索引我的数据。但是字段大小有限制,我在插入数据时遇到一些错误,说“巨大的元组”
据我了解,它与字段大小直接相关。但是这个限制没有写在我找到的任何文档中,所以有人知道这个限制吗,如果有什么方法可以改变它?
谢谢
PS:我在 postgresql 源代码中找到了这个定义:
((BLCKSZ - SizeOfPageHeaderData - \ MAXALIGN(sizeof(GinPageOpaqueData))) / 3 - sizeof(ItemIdData))
如果没有人有一些快速的答案,我会尝试使用它。
sql - SQL 自由文本等
如果我使用 like '%fish%' 则返回以下内容
水族金鱼片
但是如果我使用 Contains([Description],' "fish*" ' ) 是不是有什么我可以做的吗?
基本上我想在任何地方返回任何有鱼这个词的东西。
c# - Lucene.NET 共享主机
我试图让 Lucene.NET 在共享托管环境中工作。Mascix over on codeproject在这里概述了他是如何在 Godaddy 上工作的。我正在 iqsolutions 上尝试这个。
他发布的两个示例在我的本地计算机上都运行良好,并且都在共享托管服务器上引发了相同的错误:
我尝试在 web.config 中添加对 Lucene.NET 组件的直接引用,如下所示:
但这也会引发自己的错误。我想我的问题是:我错过了一些简单的东西还是服务器端设置会导致它根本不起作用?
mysql - 如何查看 MySql 全文索引?
- MySql 全文搜索是否使用索引?
- 如果是这样,我如何查看索引条目表?
我可以使用 VIEW 查询查看索引统计信息。但是,我只想查看索引记录条目表。
sql - 对 HTML/XML 数据进行 SQL 全文搜索
我在 cms 数据库 (SQL 2005) 上有一个 sql 全文目录。数据库将 CMS 页面内容保存在作为全文目录一部分的 ntext 列中。正如预期的那样,搜索会考虑页面内容中的 xml 标签,因此搜索“H1”会返回所有带有 H1 标签的页面。
是否可以在全文搜索中应用过滤器来仅索引 xml 标记中的数据。
我可以看到 SQL 全文搜索可以索引/搜索 .html 二进制类型或 xml 列。但是,如您所见,设置与此略有不同。
非常感谢,
亚当
words - 很多文章的单词列表 - 文档术语矩阵
我有近 15 万篇土耳其语文章。我将使用文章进行自然语言处理研究。我想在处理文章后存储每篇文章的单词和频率。
我现在将它们存储在 RDBS 中。
我有 3 张桌子:
文章 -> article_id,text
Words -> word_id, type, word
Words-Article -> id, word_id, article_id, frequency (index for word_id, index for article_id )
我会查询
- 一篇文章中的所有单词
- 每篇文章一个词的频率
- 单词出现在所有文章和哪些文章中
我在 word-article 表中有数百万行。在这个项目中,我一直使用 RDBS。从mysql开始,现在使用oracle。但是我不想用oracle,想要比mysql更好的性能。
此外,我必须在具有 4gb 内存的机器上处理这项工作。
简单地说,如何存储文档术语矩阵并对其进行查询?性能是必要的。“键值数据库”可以在性能上击败 mysql 吗?或者什么可以打败mysql?
如果您的答案编程语言取决于,我正在用 python 编写代码。但是 C/C++ , Java 没问题。
java - Google App Engine 的最佳 Java 文本索引库是什么?
到目前为止,我知道指南针可以处理这项工作。但是用指南针索引看起来相当昂贵。有没有更轻的替代品?
full-text-indexing - 尝试索引文件时,狐猴收到格式错误的文档错误
我在这里浏览了一些狐猴索引教程:
http://www.lemurproject.org/tutorials/begin_indexing-1.php
我创建了一个“语料库”文件夹,其中包含一个带有看似正确格式的文件的文档:
并创建了以下配置文件:
但是,当我运行时:
我得到了一个神秘的例外:
我查看了源代码中的相关函数,但没有什么特别突出的地方。有任何想法吗?
sql-server - 在 sql server 中使用全文索引时会给我更好的性能吗?在每个地方或某些情况下?
我使用 NHibernate ORM 编写了一个大型应用程序。在数据库级别使用全文索引对我的应用程序性能有好处吗?它会给我更好的搜索性能吗?
sql-server - SQL Server 中的 itemcount 属性应该匹配什么
如果itemcount
属性与索引行数不完全匹配,那是个问题吗?有没有一种数字方法可以确保我拥有完整的全文索引?
更新:该属性fulltextcatalogproperty('database','itemcount')
不等于索引表的行数。差了几千。这是否表明索引缺少信息,或者您希望 itemcount 不完全匹配?