问题标签 [pylucene]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
210 浏览

elasticsearch - Apache Lucene / Elasticsearch 快照还原与合并

我已经使用它的APIs在 ElasticSearch (ES) 中成功地对数据进行了多次快照和恢复。但现在我想在 ES 中或直接在 Lucene 中合并两个快照以恢复“更大”的数据块。

详细信息:我每周对我的数据进行快照,一旦恢复完成,我就会删除索引,所以基本上工作流程看起来像这样

我环顾四周,但似乎没有办法做到这一点,但这些帖子已经有一年了,所以想再次接触社区。

此外,如果不在 ElasticSearch 中,是否有办法直接执行此 Lucene,然后将 ES 配置为使用“新组合”索引进行恢复?

我选择的开发语言是 Python,所以我也在研究 PyLucene,但还没有深入研究它。

0 投票
1 回答
1422 浏览

python - 如何在 Windows 中安装 PyLucene 6.0.2

我正在尝试使用python&在信息检索上创建一个简单的应用程序PyLucene

你能帮我在 windows 上安装 PyLucene 6.2.0,我已经安装了jcc,但我不知道如何安装 PyLucene。

我找到了这个文档http://lucene.apache.org/pylucene/install.html#for-the-rest-of-us但我不明白什么是 make & install make 指令。

请帮我 。

0 投票
0 回答
193 浏览

python - 在mac中安装pylucene时出错

我正在尝试将 pylucene 安装到 mac 终端

我尝试了以下链接上的说明:

http://macappstore.org/pylucene/

当我安装时,我收到以下错误

错误:没有名称为“pylucene”的可用公式
==> 正在搜索类似命名的公式...错误:未找到类似命名的公式。
==> 正在搜索水龙头... 错误:在水龙头中找不到公式。

谁能指导我。

谢谢

0 投票
1 回答
647 浏览

lucene - pyLucene - 如何使用 BM25 相似性而不是 tf-idf

据我了解,pyLucene 现在也提供 BM25 相似性。我正在使用 pyLucene - 4.10.1,但找不到任何关于如何使用 BM25 而不是 tf-idf 的示例。请指导。

0 投票
1 回答
434 浏览

flask - 在烧瓶中使用pylucene时如何避免attachCurrentThread异常?

我围绕一个使用pylucene(6.5) 读取和查询 Lucene 索引的类构建了一个简单的包装服务。运行服务器时出现以下错误:

RuntimeError: attachCurrentThread() must be called first

我认为问题源于该lucene.initVM()声明,我尝试将其移动到不同的地方。如果我把它放在请求方法中它会起作用,但这意味着我需要在每个请求中加载索引。

有更好的方法吗?

0 投票
0 回答
101 浏览

pylucene - 导入时pylucene未解析的引用

我已经安装了 JCC 2.23 和 pylucene 6.4.1。但是,当我打开 pylucene 的样本时,总是会出现一些错误,就像这张图片一样。我的 Java 版本是 1.8,我使用的是 Mac OS X。

0 投票
1 回答
224 浏览

lucene - Lucene 不索引文档中的某些术语

我一直在尝试使用 Lucene 来索引我们的代码数据库。不幸的是,索引中省略了一些术语。例如,在下面的字符串中,我可以搜索“版本号”以外的任何内容:

我尝试使用 Lucene.NET 3.1 和 pylucene 6.2.0 实现它,结果相同。

以下是我在 Lucene.NET 中实现的一些细节:

CustomAnalyzer 类:

最后,CustomTokenizer 类:

看起来像“版本号”和其他一些术语没有被索引,因为它们存在于 99% 的文档中。这可能是问题的原因吗?

编辑:根据要求, FileDocument 类:

0 投票
0 回答
228 浏览

python - pylucene initVM() 上的分段错误(核心转储)

我使用 pylucene 用 python 构建一个 lucene 搜索。我认为今天在我的 Ubuntu 16.04.2 LTS 工作站上进行了一些系统更新后,每次调用 lucene.initVM() 时都会收到错误“分段错误(核心转储)”。Lucene 是 apt-get install 安装的默认 ubuntu 软件包。

我在 python 命令行以及我的脚本中的用法上收到错误。

你能给我一个建议,我该如何纠正这个问题?

0 投票
1 回答
561 浏览

python-3.x - JCC链接python3.5安装pylucene失败

我正在尝试安装 JCC,这是 pylucene 的先决条件。我正在使用 linux-mint Serena。我想用python3.5安装它。检查 setup.py 文件后,我运行:

这是我得到的错误:

我检查了 python3.5 是否可用/usr/bin/,还检查了我是否安装了 python3-dev。

我不知道为什么链接失败,任何想法?

0 投票
0 回答
228 浏览

solr - 在 lucene 中组织 indexWriter 和 indexSearcher 的正确方法

我正在使用 pylucene 构建和搜索倒排文本索引。我建立了这个类(不要害怕python代码,pylucene暴露了与java相同的功能):

我是 lucene 的新手,我想知道每次运行index_documentsandquery_index函数时创建 writer 和 reader 有多优化。我不能将更多信息存储到类中吗?我试图将读取器和写入器保存为属性,但它使进程崩溃。

编辑:我正在使用的最后一堂课