问题标签 [solr-cell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - 使用 Solr 用页码索引 PDF
我正在使用 ExtractingRequestHandler 使用 Solr 为 PDF 编制索引。我想在文档中显示页码以及命中,例如“在第 2、3 和 5 页foo
找到术语”。bar.pdf
是否可以像这样在查询结果中包含页码?
solr - 使用 /solr/update 进行索引时如何提升 SOLR 文档
为了索引我的网站,我有一个 Ruby 脚本,它会生成一个 shell 脚本,将我的文档根目录中的每个文件上传到 Solr。shell 脚本有很多行,如下所示:
...并以:
这会将我的文档根目录中的所有文档上传到 Solr。我使用tika 和 ExtractingRequestHandler将各种格式的文档(主要是 PDF 和 HTML)上传到 Solr。
在生成这个 shell 脚本的脚本中,我想根据它们的 id 字段(a/k/a url)是否匹配某些正则表达式来提升某些文档。
假设这些是提升规则(伪代码):
将索引时间提升添加到我的 http 请求的最简单方法是什么?
我试过:
和:
搜索结果的顺序都没有区别。我想要的是提升结果在搜索结果中排在首位,无论用户搜索什么(当然前提是文档包含他们的查询)。
我知道,如果我以 XML 格式发布,我可以为整个文档或特定字段指定提升值。但是如果我这样做,则不清楚如何将文件指定为文档内容。实际上,tika 页面提供了一个部分示例:
但同样不清楚在哪里/如何指定我的提升。我试过:
和
两者都没有改变搜索结果。
Is there a way to update just the boost attribute of a document (not a specific field) without altering the document contents? If so, I could accomplish my goal in two steps: 1) Upload/index document as I have been doing 2) Specify boost for certain documents
java - 如何用 SolrJ 索引 pdf 的内容?
我正在尝试使用 SolrJ 索引一些 pdf 文档,如http://wiki.apache.org/solr/ContentStreamUpdateRequestExample所述,下面是代码:
不幸的是,在查询 *:* 时,我得到了索引文档列表,但内容字段为空。如何更改上面的代码以提取文档的内容?
下面是描述该文档的 xml frament :
我不认为这个问题与 Apache Tika 的错误安装有关,因为以前我有一些 ServerException 但现在我已经在正确的路径中安装了所需的 jar。此外,我尝试使用同一类索引 txt 文件,但attr_content字段始终为空。
solr - 如何使用 Solr 3.1 配置 Tika 0.9
你能给我用 Solr 3.1 配置 Tika 0.9 的步骤吗
我在 solrconfig.xml 中使用的这个来配置 请帮助我
谢谢,
solr - tika solr 集成
我正在尝试使用基于 curl 的请求进行索引
请求是
在提交请求时,我收到此错误,
solr - Solr Cell / ExtractingRequestHandler cannot parse some *.doc files
I need to index content of doc/docx/pdf files uploaded by users and use Solr (1.4.1) ExtractingRequestHandler component (817165) for that. If that matters, I don't request indexing from it - the component is always called with extractOnly parameter returning text content of the document only and not adding it to the index on its own straight away (the content is then added to the index "outside" as a text field of the document following the standard procedure).
However, some files are not parsed and the component returns 500 Internal Server Error with no other details provided. Of all *.doc files submitted by our users about 30% of them fail to parse.
It is not the problem with Solr load - the files that cannot be parsed are always the same if you parse the same list of them again and again. It is also not about their size - many of them are smaller than other ones parsed successfully. Apparently, it is not about peculiar formatting (or at least that is not obvious) - almost all documents that fail to parse have coloured fonts, tables and images but many of the ones parsed successfully also have the same.
All these files open in Word without any warnings or errors. If you save them as docx Solr starts parsing them correctly but re-saving them in the same doc format with the same content doesn't help. Still, if all the content is removed and replaced by some lorem ipsum text, then saved as doc, they become correct.
As the content replacing helps, it should be something with some elements used in the documents but there is no description on Tika Formats page telling in which cases parsing of the document fails.
I've uploaded a sample file which fails to be parsed in case if anyone is curious enough to try it (it is archived to prevent Windows Live from converting it into "online document").
Currently as a way around I use an ancient antiword utility to parse those *.doc on which Solr fails (and antiword parses them perfectly). Still, it is obviously a crutch and I wonder if anybody else is facing the same issue - I failed to google it so probably that's me doing something wrong.
Or, if that's a known problem, what could be more elegant ways to solve it (I don't like relying on antiword)?
solr - Solr:数据导入处理程序和 solr 单元
是否可以通过使用 solr 单元的数据导入处理程序来索引丰富的文档(pdf、office)。
我使用 solr 3.2。
谢谢。
solr - 使用 Solr 索引 PDF
谁能给我指个教程。
我使用 Solr 的主要经验是索引 CSV 文件。但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么。
我见过这个:http ://wiki.apache.org/solr/ExtractingRequestHandler
但这对我来说意义不大。我需要安装 Tika 吗?
我迷路了-请帮忙
python - 内置支持 doc、docx 和 pdf 文件的文本索引器(用于 python)
我目前正在为我的 python 程序寻找文本索引器。我入围了 Solr,一个 Lucene 项目和 Whoosh,它是 Python 原生的。我搜索了很多关于对 doc、docx 和 pdf 文件的支持的文档,Solr 一直将我指向 Tika 包,它的一个版本与 Solr 集成。
结果并没有在某些方面提及是否有任何包具有对这三种格式的内置支持。Whoosh 和 Solr 是否支持他们?还有哪些其他开源索引器本机读取这些格式?
solr - Solr在搜索关键字后打开文档
我正在尝试索引一些 PDF 文档,然后创建一个 Search UI 。
这个问题有点相关
1)索引PDF文档->我使用tika jar将PDF转换为文本文件,然后使用curl命令对其进行索引。
2) 搜索 UI --> 我正在使用Solritas浏览功能及其内置 UI。
客观的 :
当我在索引文档列表中搜索单词“Lucene”时,当我获得给定查询的结果集时,我希望为每个返回的文档显示一个链接,并单击我应该能够打开的任何文档那个文件。
我目前的想法:
我想我可能必须将第一步从两步更改为直接索引它们的一步。我什至认为 schema.xml 中应该有一个额外的字段来说明这些 PDF 文档的位置。
请指导我一些建议