问题标签 [dtsearch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1550 浏览

search - 应该影响决定使用哪个搜索专有数据的搜索引擎之间的主要区别是什么?

搜索引擎(DtSearch、Lucene.net、Sphinx、Google 等)之间的主要区别是什么,它们应该会影响决定使用哪个来搜索专有数据?

要搜索的数据由无显示数据组成,这些数据以名称/值对的形式使用元数据进行标记。我们对各种工具的格式解析能力不感兴趣。此外,搜索结果需要是结构良好、无显示的数据,可以与来自其他(类似结构的存储库)的搜索结果进行聚合。

下面列出了一些需要告知决策的相关搜索引擎特征。欢迎进一步的建议或经验描述。

• 成本 • 易于使用 • 可以配置为仅返回特定标签 • 可以“识别”特定术语,为这些结果提供更高的搜索结果权重 • 快速 < 0.3 秒返回搜索结果或 %E6 记录/文档 • 支持带有类型的标签(find weather='sunny' 但不是personality=sunny) • 支持权重以提供相关性排名 • 按相关性排序返回结果 • 支持同义词 • 支持词干提取 • 支持停用词 • 支持拼写更正 • 适合并行化或索引构建(如果基于索引) • 快速重新索引(如果基于索引) • 快速更新索引(如果基于索引) • 合并来自多个索引的结果(如果基于索引) • 接近度检查:与找到的靠近在一起的单词提供更高的相关性

0 投票
2 回答
1249 浏览

asp.net - Lucene.net 是 1M 项目产品数据库网站搜索的好选择吗?(放弃 SQL Server 2005 全文搜索)

我们目前有生产中的 SQL Server 2005,我们使用它的全文搜索来搜索一百万个产品数据库的电子商务网站。我已经尽可能地优化了它(我认为),我们仍然看到 5 秒的搜索时间。

(我们不需要网站潦草或 PDF(等)文档索引功能......只需“谷歌”速度进行网站搜索。)

我打算购买 dtSearch 但现在我意识到我可以使用 Lucene.net 并节省 2,500 美元购买两个服务器许可证。

我在一篇文章中读到 Lucene.Net 不适合网站搜索。

有其他人使用过 ASP.Net 的 Lucene.Net 吗?是不是需要很多内存?

任何问题?

任何意见?

0 投票
1 回答
1592 浏览

dtsearch - 使 dtSearch 突出显示每个短语一次点击,而不是每个词中的单词一次点击

我正在使用 dtSearch 突出显示文档中的文本搜索匹配项。执行此操作的代码,减去一些细节和清理,大致如下:

如果我给 dtSearch 一个带引号的短语查询,例如

“审计线索”

然后 dtSearch 会像这样突出显示:

<a name="HH_0"/><b>audit</b> <a name="HH_1"/><b>trail</b> 拥有一个<a name="HH_2"/ 是一件很有趣的事情><b>审核</b> <a name="HH_last"/><b>跟踪</b> 关于!

请注意,该短语的每个单词都单独突出显示。相反,我希望将短语作为整个单元突出显示,如下所示:

<a name="HH_0"/><b>审计跟踪</b>是一个有趣的事情,有一个<a name="HH_last"/><b>审计跟踪</b>!

这将 A) 使突出显示看起来更好,B) 改进我的 javascript 的行为,帮助用户在点击之间导航,以及 C) 提供更准确的总点击计数。

有没有很好的方法让 dtSearch 以这种方式突出显示短语?

0 投票
2 回答
403 浏览

c++ - 我可以在 linux 下的 C++ 中使用 dtsearch,如果可以,我应该使用什么 API?

我想在我用 C++ 和Gtkmm编写的桌面应用程序中使用 dtsearch。我可以有任何 API 或 API 链接来做我的事情吗?

0 投票
1 回答
284 浏览

sitecore - Sitecore dtSearch 配置与多个网站

如何使 Sitecore 能够使用 dtSearch 搜索 2 个索引?在 Sitecore 文档中,我找不到任何关于向配置添加多个索引的信息。

0 投票
1 回答
300 浏览

c# - DTSearch COM Interop - 如何向 C# 公开对象?

我知道,我在这里赌一把。我不知道我是否可以在这方面得到帮助。但是,这就是问题所在。

我工作的公司拥有 DTSearch 的完全许可(如果是旧的)开发人员副本,包括 C++ 源代码。他们在我正在更新的应用程序中使用它。我被告知要在当前正在开发的该应用程序的 C# 附加功能中使用它。但是,我没有 .NET 程序集,他们出于某种原因拒绝实施它。

因此,我可以在对象浏览器中轻松查看 dtengine,并且有许多可爱的对象等着我使用它们。但是它们都不会实例化。尝试它让我

无法嵌入“dtengine.SearchJobClass”。请改用适用的接口。

并且有大量的接口,我可以轻松地实现它们中的任何一个。麻烦的是,“抛出新的 NotImplementedException”并不能完全完成我的搜索。

有没有人有任何线索?

0 投票
2 回答
826 浏览

localization - 使用 dtSearch/Lucene 在 Sitecore 中搜索中文

正在考虑在 Sitecore 中建立一个中文网站(繁体和简体),并想知道支持搜索的可能性在哪里。

从我到目前为止收集到的信息来看:

  • Lucene 不支持开箱即用,但可以通过开发或第三方扩展以允许中文搜索
  • dtSearch 应该支持它,但据我所知,它是不可靠的/未经测试的。

有没有人有在 Sitecore 中使用中文和执行搜索的经验?有没有人有在Lucene中实现中文的经验?

任何帮助,将不胜感激。

干杯,菲尔

0 投票
0 回答
386 浏览

c# - DtSearch 搜索找到的文件超过了搜索作业的限制

好吧,在我的 dtsearch 实现中几乎就是这种情况。我得到了那个例外,但是有一些奇怪的事情。

调试中的相同代码完美运行开发和服务器中的索引是使用 dtSearch 桌面中相同的选项首选项设置创建的

DtSearch 支持表示索引创建设置和索引搜索设置之间可能存在差异。我只是停止定义这些设置,并按默认设置工作。

几周前一切都很顺利,我不记得我到底做了什么,除了尝试为每个索引设置特定的搜索设置,然后我评论了这些行。试图实现概要但不起作用,所以我评论了这些行。

我真的不认为它与创造和搜索有关,而是与其他东西有关。

谢谢你们

0 投票
1 回答
763 浏览

java - 如何修复错误 UnsatisfiedLinkError: C:\Program Files\dtSearch Developer\bin\dtsjava.dll: 操作系统无法运行 %1

我正在使用 J2EE。我已经在我的 windows xp 上安装了 dtSearch 引擎工具,我已经为此设置了所有环境变量,但我的控制台上仍然出现上述错误。

有谁知道发生了什么?请告诉我?

0 投票
2 回答
330 浏览

full-text-search - fts文档级索引,获取页面级结果(以dtSearch为例)

这不一定是特定于 dtSearch 的问题(例如,它更像是一个 fts 引擎问题),而是处理一种索引由多个页面组成的文档并获得页面级命中结果的方法。

我用谷歌搜索并搜索并没有发现任何东西,因此我的问题是:

我们有一堆来自 m 本书的扫描 n tiff 页。我们对它们进行 OCR,对它们进行全文索引并执行搜索。

我们希望搜索结果是书籍级别的(例如,搜索结果应该包含一本书),但也希望能够在页面级别获得找到的项目(以便能够有效地执行点击突出显示,例如术语SomeTerm在第 1 页、第 2 页和第 7 页上找到)。

问题来了:

  • 如果我们一次索引页面的文本,并且 BookA 中的 Page1 包含术语Term1,并且同样来自 BookA 的 Page2 包含术语 Term2 则搜索Term1 AND Term2不会产生任何结果,这是正常的
  • 如果我们在一个大文本块中索引所有页面的文本,所有这些都属于同一本书,我们将无法获得找到的术语所属的页面。

dtSearch Desktop 具有这样的 PDF 索引功能:它能够从单个文档中索引所有页面的文本,但也可以通过使用 %%Page%% 符号来判断发生命中的页面。

我们正在使用自定义 DataSource 来为索引器提供数据,但我们无法确定要使用的文档结构来获得所需的结果。

如果您使用任何其他 fts 引擎(例如 Lucene/Sphinx),您将如何解决上述问题(有重复自己的风险):

  1. 您需要索引页面的内容
  2. 页面按逻辑分组到文档中
  3. 您需要通过文档获取结果
  4. 高亮结果必须包含页码

谢谢你的任何建议,乔治

PS:抱歉留言太长了