问题标签 [full-text-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
oracle - 加快 Oracle Text 索引或让索引器仅在低负载时间下工作
我们正在使用 Oracle Text CTXSYS.CONTEXT 索引来索引大约 50 万行包含元信息的行。信息分布在由索引器在运行时调用的过程(功能索引)组合的两个表中。
当我在本地机器(简单的双核笔记本)上运行 CREATE INDEX 时,索引会在大约 3 分钟内建立。在我们的数据库服务器上,它在 Solaris 上运行,具有 8 个内核和 16G 的 RAM,它需要大约 24 小时才能为相同(完全相同)的数据创建索引。
示例代码: 这是我们的两个表和 3 列的索引馈送器:
这些是偏好
现在我们创建索引
数据主要由一个简单的标题或作者姓名 + 一个小于 1k 文本的简短描述组成。
我尝试对涉及的内存设置和 PARALLEL 参数进行一些尝试,但没有任何成功。所以我的问题来了:
- 有没有办法暂停和恢复索引过程(我手头有 CTX_SYS 角色)?
- 有没有人暗示可以调整哪个参数(尤其是内存大小)?
- 是否可以导出和导入文本索引?-> 然后我可以在我的本地机器上执行索引并将其复制到我们的服务器
- 索引器可以以“较低优先级”运行吗?
- 索引器可能已受到锁定操作的干扰(它是其他人并行访问的登台机器)。有没有办法锁定所涉及的表,创建索引并在之后解锁它们?
mysql - 创建全文索引搜索
我创建了一个博客,我希望在我的 MySQL 数据库中搜索某些表,然后在单独的搜索页面上为用户返回结果。我不想使用 Google CSE。我将如何为我的网站创建这个。我在 StackOverflow.com 上找到了一个朋友发的帖子,他希望提高自己的效率。我将如何在我的网站中实施他的搜索引擎?
他的代码 -这里
sql-server - 是否可以从给定特定行的全文索引中获取相关单词的列表?
我想在我们的系统中对传入的文本进行自动标记,我想知道全文索引是否能够在给定索引行的情况下提供单词的排序列表。
如果没有,您对如何执行此操作有任何建议吗?我们已经有一个用于自动标记的系统,但它的方法相当蛮力(又名慢),而且它并不总是能产生一个好的单词列表。
sql - FULLTEXT 键太长
尝试在我的 MySQL 数据库中将 FULLTEXT 索引添加到 Title、Edition 和 Author 时出现以下错误:
指定的密钥太长;最大密钥长度为 1000 字节
以下是列:
它们都不是唯一的。即使所有 3 的组合也不是唯一的。数据库的主键是 ISBN。
我添加此 FULLTEXT 索引的原因是人们可以使用可能包括标题、版本或作者的关键字来搜索书籍。
full-text-search - apache cassandra 查询/全文搜索
我一直在玩 apache 的 cassandra 项目。完成了相当多的阅读,我已经完成了一些相当复杂的示例,包括插入单个和批处理数据集,基于键检索单个和多个数据集。我看过的一些文章包括
http://www.rackspacecloud.com/blog/2010/05/12/cassandra-by-example http://github.com/digg/lazyboy http://arin.me/blog/wtf-is-a-超柱卡桑德拉数据模型 http://www.sodeso.nl/?p=80
我已经很好地掌握了解释的概念,甚至实现了一个简单的应用程序。
没有一篇文章描述了如何执行查询,例如,查询是用户输入的搜索词。
有谁知道或可以建议我如何执行这样的查询?或者也许是一种创建可搜索索引、全文搜索或任何远程关闭的方法?
sql-server-2008 - TIFF IFilter 未正确读取 VARBINARY 列中的文本
链接文本我想在 SQL Server 2008 中使用内置于 Windows 2008 Server R2 的 TIFF IFilter 和全文搜索...还有 R2。
我已经通过服务器管理器安装了过滤器,并将“强制 TIFF IFilter 为 TIFF 文档中的每个页面执行 OCR”计算机配置 -> 管理模板 -> OCR 中的本地组策略设置更新为“已启用”。
我还创建了一个全文目录和一个名为“FileData”的表,如下所示:
当我将文件插入到该表中时,例如 PDF 或 Word DOC,我可以稍后通过全文搜索在文件中找到关键字:
我用非常清晰的文本(1024 x 768... 大约 12 个字)制作了一个巨大的 TIFF 文件,并将其导入到 FileData 表中。我能找到里面的每一个字。
但是,当我使用“真正的”TIFF 文件(例如制造商的数据表)时,搜索关键字时会得到零结果。我不知道为什么,也没有太多使用 SQL Server 进行在线故障排除。
我尝试使用各种压缩、不压缩等保存 .TIFF 文件……但我没有任何运气。我的测试文件中的文本很清晰,而且仍然很大。我无法想象文件清晰度是问题所在,尽管我认为这是可能的。
为了便于比较,我拍摄了以下两张图片并导入了它们:
工作样本的结果非常好。这些是全文索引中工作示例中的关键字: $3.50 © 0004 08 1989 2010 21 21:35:42 235 282 3116 3702 40 48109 89 大量吸收摘要伴随获得的行为优势代理算法算法已经金额阿姆斯特丹分析安出现应用程序 arbor arnficioj artficia1 assignment bv 基于基础 booker brigade bucket building bv 能力仔细变化的特征检查器分类器分类器关闭认知比较竞争的复杂性复杂性计算机面临的混淆考虑连续不断不断设计的信用治疗数据 de 体面 定义 设计 设计 设计 发现 讨论 令人不安 生态 经济 EECS 努力 elsevier 文件结束 工程 环境 环境 错误甚至事件 示例 展示 经验 表达 现存 扩展 面对 可行 文件触发 第一流 遵循格式 游戏生成通用遗传 给予目标 戈德堡 好假期荷兰 然而 假设 图像 沉浸 免疫 撞击 隐含 不准确 信息 情报 兴趣 干预 介绍 不 相关 jh jh 期刊 lb 大 lb 学习 学习 寿命 长 机器 哺乳动物 哺乳动物 哺乳动物s 大量消息 mi michigan 新 nn0004 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5$ nn40 nn48109 nn89 嘈杂的北 nos 新颖的新颖性 可获得 经常 一个操作选项 最初在自己的纸张之外 并行传递模式 支付许可 永久永久播放 播放器播放可能的漂亮问题 提供出版商快速 随机 很少 真实 现实 强化 反复 重印 要求 视网膜 评论 修改 机器人 规则 规则 科学 序列 设置 非常简单 简单 小 稀疏 系统 系统 标记 技术 理论 thor tiff 时间 tt2135 两次扭曲 两个典型的美国大学在我们身上 美国视觉卷 没有奇迹世界大学在我们美国视觉卷没有奇迹世界大学在我们美国视觉卷没有奇迹世界
但是破碎样本的结果只是……嗯,空的。实际 TIFF 图像中没有一个单词: 08 2010 21 21:49:22 END OF FILE 文件格式图像 nn08 nn2010 nn21 标记为 tiff tt2149
如果有人对接下来要尝试什么有任何想法,我会全力以赴。
full-text-search - 网络驱动器索引频率
我工作的公司拥有数百万个文档,这些文档存储和共享在映射到用户驱动器的多个网络驱动器上(例如 d:\ 到 \server1\ 等)。
我想实现的是在网络驱动器上爬网,让用户使用全文索引快速查找文件。
我目前的索引策略是Lucene.net
但我不确定我应该多久索引一次网络驱动器,因为有数百万个文档要索引,更不用说通过网络传输的数据包了。
所以问题是我应该如何实现索引频率?
我一直在研究 Google/Windows 桌面搜索索引的频率,但没有结果。
full-text-search - 全文检索示例数据库
我希望对 PostgreSQL、SQLServer 和 Lucene 中的全文搜索索引进行一些基准测试。
关于在哪里找到一个好的大样本数据库来执行查询的任何想法?
提前非常感谢。
pdf - 索引 pdf 文档
索引 pdf 文档的最佳方法是什么?我应该通过将 pdf 文档转换为 txt 来索引它们,还是有更好的方法来索引 pdf 文件?
php - 缓慢的 MySQL 全文搜索
我正在使用此查询对 MySQL 数据库执行全文搜索:
结果非常相关,但是搜索确实很慢,并且随着表格的增长而变得越来越慢。
表格统计:
问题- 400 条记录
索引
- 主要 BTREE - id
- BTREE - 唯一代码
- BTREE - 问题日期
- BTREE - 用户标识
- FULLTEXT - 问题文本
- FULLTEXT - 唯一代码
答案- 3,635 条记录
索引
- 初级 - BTREE - id
- BTREE - 回答日期
- BTREE - questionid
- FULLTEXT - 答案文本
answer_mapping - 4,228 条记录
索引
- 初级 - BTREE - id
- BTREE - 回答ID
- BTREE - questionid
- BTREE - 用户标识
标签- 1,847 条记录
索引
- 初级 - BTREE - id
- BTREE - 标记
- 全文 - 标记
标记映射- 3,389 条记录
索引
- 初级 - BTREE - id
- BTREE - 标记
- BTREE - questionid
无论出于何种原因,当我删除标记映射和标记JOINS 时,搜索速度都会大大加快。
您对如何加快此查询有任何提示吗?
提前致谢!