问题标签 [grobid]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1161 浏览

windows - 在 64 位 Windows 上运行 Grobid

我正在尝试在 64 位 Windows 上执行GROBID 。

没有适用于 Windows 的库的 x64 位版本(至少我找不到)。它在带有 64 位 JRE 的 64 位 Linux 和带有 32 位 JRE 的 32 位 Windows 上运行。所以JRE的版本不是问题。

我了解我需要包含 64 位 Windows - libcrfpp 文件。但是我找不到它。你能告诉我在哪里可以找到它或帮助我执行它吗?

但是我收到如下错误 -

尝试在 Windows 64 上使用 64 位 JVM 运行它时出错 -

尝试在 Windows 64 上使用 32 位 JVM 运行它时出现更新错误 -

0 投票
1 回答
180 浏览

solr - 将 grobid 与 tika 和 solr 集成

我正在使用 Solr 来索引期刊文章。使用开箱即用的配置,它索引文档的文本,但我希望使用 Grobid 提取作者、标题、附属机构等。我启动了 grobid 并作为服务运行。

我添加了

<str name="tika.config">/path/to/tika-config.xml</str>

到 solrconfig.xml 中 /update/extract 的 requestHandler

tika-config 看起来像:

当我尝试导入文档时遇到 ClassNotFound 异常,但不知道在哪里设置类路径来修复它。

0 投票
1 回答
131 浏览

python - 编辑 python 配置文件以包含 Grobid 路径

我已经在所有段落之后从 github 安装了 Robot-reviewer。我在它问的最后一段

“编辑 robotsreviewer/config.py 文件以包含您安装 Grobid 的目录的路径。(RobotReviewer 将在子进程中自动启动它)。请注意,这应该是整个(父)Grobid 目录的路径,而不是bin 子文件夹。”

不幸的是,我没有找到任何教程来做到这一点,而且我对 python 不实用。我怎样才能做到这一点?

这个 repo 的 github 链接是https://github.com/ijmarshall/robotreviewer3

0 投票
3 回答
5313 浏览

java - Maven-无法解决依赖关系

我是使用 Maven 的初学者。我尝试在 Maven 中添加 Grobid(用于 pdf 解析)。我给的依赖是:

但是在构建 pom 时,它显示以下错误:

[错误] 无法在项目 Miner 上执行目标:无法解析项目 Miner:war:1.0-SNAPSHOT 的依赖项:无法在 org.grobid:grobid-core:jar:0.3.4 -> org.chasen:crfpp 收集依赖项:jar:1.0.2: 无法读取 org.chasen:crfpp:jar:1.0.2 的工件描述符:无法将工件 org.chasen:crfpp:pom:1.0.2 从/向 3rd-party-local-repo 传输(file:///${basedir}/lib/):存储库路径/${basedir}/lib 不存在,无法创建。-> [帮助 1]

我已经经历了不同的相关问题..我在添加 pom 等后尝试过。仍然无法正常工作..为什么会出现这个错误..我们是否必须为 Grobid 做额外的代码..?

0 投票
1 回答
273 浏览

python - Grobid 返回 500 类型错误

我正在尝试使用本地机器中内置的 Grobid,但此脚本打印 500 错误。而当我使用 Curl 从 CLI 执行此操作时,它工作正常。请帮忙!

0 投票
2 回答
339 浏览

python - 将 Grobid curl 命令转换为 Python 中的请求

我正在尝试将curl脚本转换为将 pdf 文件从grobid服务器解析为requestsPython。

基本上,如果我grobid按如下方式运行服务器,

我可以使用以下内容curl获取学术论文的解析 XML 的输出,example.pdf如下所示

但是,我不知道如何将此脚本转换为 Python。这是我尝试使用requests

0 投票
1 回答
267 浏览

java - 在 Grobid 中使用 Gradle 时出现如下错误

我正在尝试在 Ubuntu 64 位中安装 Grobid。

参考自

请帮助我如何解决这个问题。

0 投票
1 回答
500 浏览

python - 使用 Beautiful Soup 解析 Grobid .tei.xml 输出

我正在尝试使用 Beautiful Soup 从使用 Grobid 生成的 .tei.xml 文件中提取元素。

我可以使用以下方法获取标题:

访问“较低级别”元素的正确语法是什么?(作者/单位等)

这是 tei.xml 文件的一部分,它是 Grobid 输出:

谢谢。

0 投票
1 回答
55 浏览

python - 我想安装 maven 以使用软件调用 GROBID

我尝试基于 https://maven.apache.org/install.html安装 maven onm win 10

用于安装软件 GROBID_NER

https://grobid-ner.readthedocs.io/en/latest/build-and-install/

但不幸的是我遇到了这个错误,谁能告诉我我该怎么做?

我认为这与我的 jdk 有关,我只是在第一个链接中提到的我的环境中添加了一个 JDK 的路径,有没有出错?

0 投票
1 回答
213 浏览

tika-server - 解析 pdf 文档时,带有 Grobid 的 Tika 抛出错误

我正在尝试从 pdf 文档中提取文档元数据和期刊标题元数据。我验证了 Tika Server (v1.21 / v1.24) 和 Grobid (v0.6.0) 能够独立地从 pdf 文档中提取元数据。但是,当我在 Tika Server 中运行 Grobid 时(遵循 https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的说明),对于同一个 pdf 文档,我收到以下错误(片段):

我运行以下命令以使用 Grobid 启动 Tika Server:

我运行以下命令来测试元数据提取:

除了抛出上述错误之外,我还在输出中从 Tika 获取文档元数据。但是,Grobid 元数据并未被提取。

感谢任何输入/建议来解决这个问题。谢谢。