问题标签 [xapian]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - Xapian vs Lucene.Net - 阿拉伯语文档文本搜索
我正面临在 C# .Net 中通过大量阿拉伯语内容文档(PDF 和 Doc 文件)进行文本搜索的问题。
经过大量搜索,我想出了2个解决方案,
首先,Lucene.Net和我面临以下问题
1- 与 Lucene.Net 一起使用的阿拉伯语分析器并找到了这个,还不知道它是否会工作!
2- 从文档中提取文本(大约 6000 个 PDF 和 Doc 文件)并找到我将在 ikvm 的帮助下在 .Net 中使用的 Tika。但是,鉴于此解决方案可行,我不知道性能会如何。
其次,我和 Xapian 转移到这个解决方案以利用 omega 库,但仍然发现了一些问题
1- xapian 是否可以在阿拉伯语上下文中使用,或者它也需要一个阿拉伯语分析器,如果需要,我将如何解决这个问题
事实上,对于阿拉伯语内容和几乎大量的数据,我无法决定使用哪种解决方案。
非常感谢任何帮助或建议,
谢谢,
萨默
solr - Lucene/Solr、Whoosh、Sphinx、Xapian 中的文档搜索
我正在比较 Lucene/Solr、Whoosh、Sphinx 和 Xapian 在 DOC、DOCX、HTML 和 PDF 中搜索文档。只有 Solr 被记录为具有直接索引文档的文档解析器 (Tika)。所以这似乎是一个明显的赢家。
但为了公平竞争,我喜欢考虑替代方案。其他人是否有直接的文档索引(我可能错过了)?如果不是,它们可以轻松实施吗?还是 Solr 是压倒性的选择?
python - 用 haystack 和 xapian 搜索?
我一直在尝试进行此搜索:
帖子的标题是“帮帮我”
在我的代码中是:
所以如果我搜索“帮助”、“我”或“帮助我”,我会得到帖子,但是如果我搜索“我的帮助”,我不会。我想搜索“我的帮助”并仍然得到帖子。或者,如果帖子的标题是“请帮帮我”,而我搜索“请帮帮我”,我仍然会收到该帖子...
所以我在stackoverflow上搜索了一下......并在这里找到了一个帖子: Django + Haystack如何进行这个搜索
我遵循了接受的答案的两个建议
但是,当我这样做时:
当我搜索“我的帮助”时,我得到了所有结果,即使是那些没有“帮助”或“我”的结果
当我这样做时:
没有什么真正改变,搜索“帮助”、“我”、“帮助我”有效,但“我帮助”仍然没有。
我确定答案很明显,但我是 haystack 新手……那么我如何获取查询(搜索“我的帮助”)以获取帖子(“帮助我”)?
hierarchy - 在 Xapian 中使用术语前缀表示类别层次结构的最佳方式是什么?
假设我有以下示例层次结构:
- 我们
- 密歇根州
- 底特律
- 大急流城
- 兰辛
- 明尼苏达
- 大急流城
- 明尼阿波利斯
- 圣保罗
- 俄亥俄州
- 哥伦布
- 大急流城
- 桑达斯基
- 密歇根州
我看到了两种方法可以索引带有前缀术语的“密歇根州大急流城”文档:
或者
我倾向于使用第二种方法,认为它会返回更直观的结果。也就是说,包含密歇根州大急流城搜索条件的搜索不太可能包含来自明尼苏达州和俄亥俄州的文档。
然而,这种方法的两个方面困扰着我。首先,为层次结构的每个级别创建和维护术语前缀感觉是错误的。其次,值的串联似乎是使用权重的替代品。
那么,用术语前缀表示层次结构的最佳方式是什么?
django - Django 的 Haystack 是什么?
我一直在阅读有关 Haystack、Whoosh、Xapian 等的信息。但是我并没有真正了解它们的确切用途以及它们之间的关系。例如,据说
在第三方应用程序上启用搜索,而无需接触该应用程序的代码。
有人可以向我解释这些是用来做什么的,也许可以提供一个很好的链接,并且足够简单,可以让初学者理解。谢谢
python - 使用 django-haystack 计算模板中的搜索对象总数
我正在使用 django haystack 和 xapian 作为后端搜索引擎。我正在使用FacetedSearchView
和FacetedSearchForm
进行搜索。我已经传递searchqueryset
到FacetSearchView
我的urls.py
文件中。
但问题是我无法searchqueryset
在模板中访问它。我要做的就是计算找到的对象的数量searchqueryset
。
在 shell 中,我可以使用 S 来实现它earchQuerySet().filter(content="foo").count()
,我如何在模板中类似地做到这一点?请指导。我想要匹配搜索的对象总数。
php - Xapian 在 CentOS 6 上使用 PHP 5.3+
我有一个安装了 CentOS 6 和 PHP 5.3 的 64 位服务器
php-5.3.2-6.el6_0.1.x86_64
我已经使用他们网站上的 RPM 安装了 xapian
现在,当我尝试通过 Apache 从 PHP 使用 xapian 库时,出现此错误:
dl()
在/usr/share/php/xapian.php
第 22 行调用未定义的函数
经过一番谷歌搜索后,我发现它dl()
不再适用于 PHP 5.3+。我已经启用enable_dl
了php.ini
,没有做任何事情。我无法在任何地方找到解决此问题的任何方法。我想目前使用 CentOS 6 的人不多吧?
我能做些什么?
ios - 是否可以在 iOS 上编译和使用 xapian、clucene 或 lucy?
我想在 iOS 上用 xcode 编译和使用 Xapian,有没有人对此进行过任何实验?可能吗?
在 iOS 上实现全文搜索还有其他选择吗?我尝试过 S4luceneLib(在 Obj-C 中),它可以工作,但它是旧版本 lucene 的端口,我还检查了 Clucene 和 lucy,就像 xapian 我无法编译IOS。
任何帮助和评论将不胜感激。
search - Xapian vs Apache Solr
我正在尝试在网站中进行良好的自然语言搜索,并尝试了解 Apache Solr 与 Xapian 的优势。Xapian 似乎更容易设置。两者都提供良好的自然语言搜索吗?任何见解表示赞赏。
python - 多语言全文搜索,包括 Django / Python 中的词干提取
目前我们在基于 Django 的多语言项目中使用 Djapian + Xapian 进行全文搜索。为了对每种语言使用词干提取,我们为每种语言创建不同的搜索索引。在 Django 中,我们根据用户的语言、使用哪个词干和哪个搜索索引来决定。这很好用,但是,Djapian 似乎不再被维护,并且代码越来越分解。所以我们切换到 haystack,但 haystack 似乎没有提供我们需要的那种动态词干。
有没有办法在 haystack 版本 1.x、版本 2.x 或任何其他基于 Python/Django 的后端中集成这种可能性?