问题标签 [grobid]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

10 问题

0 投票

2 回答

1161 浏览

windows - 在 64 位 Windows 上运行 Grobid

我正在尝试在 64 位 Windows 上执行GROBID 。

没有适用于 Windows 的库的 x64 位版本（至少我找不到）。它在带有 64 位 JRE 的 64 位 Linux 和带有 32 位 JRE 的 32 位 Windows 上运行。所以JRE的版本不是问题。

我了解我需要包含 64 位 Windows - libcrfpp 文件。但是我找不到它。你能告诉我在哪里可以找到它或帮助我执行它吗？

但是我收到如下错误 -

尝试在 Windows 64 上使用 64 位 JVM 运行它时出错 -

尝试在 Windows 64 上使用 32 位 JVM 运行它时出现更新错误 -

2012-05-10T11:44:37.483

0 投票

1 回答

180 浏览

solr - 将 grobid 与 tika 和 solr 集成

我正在使用 Solr 来索引期刊文章。使用开箱即用的配置，它索引文档的文本，但我希望使用 Grobid 提取作者、标题、附属机构等。我启动了 grobid 并作为服务运行。

我添加了

<str name="tika.config">/path/to/tika-config.xml</str>

到 solrconfig.xml 中 /update/extract 的 requestHandler

tika-config 看起来像：

当我尝试导入文档时遇到 ClassNotFound 异常，但不知道在哪里设置类路径来修复它。

solr apache-tika grobid

2016-05-04T13:00:06.007

0 投票

1 回答

131 浏览

python - 编辑 python 配置文件以包含 Grobid 路径

我已经在所有段落之后从 github 安装了 Robot-reviewer。我在它问的最后一段

“编辑 robotsreviewer/config.py 文件以包含您安装 Grobid 的目录的路径。（RobotReviewer 将在子进程中自动启动它）。请注意，这应该是整个（父）Grobid 目录的路径，而不是bin 子文件夹。”

不幸的是，我没有找到任何教程来做到这一点，而且我对 python 不实用。我怎样才能做到这一点？

这个 repo 的 github 链接是https://github.com/ijmarshall/robotreviewer3

python grobid

2017-01-20T11:07:24.510

0 投票

3 回答

5313 浏览

java - Maven-无法解决依赖关系

我是使用 Maven 的初学者。我尝试在 Maven 中添加 Grobid（用于 pdf 解析）。我给的依赖是：

但是在构建 pom 时，它显示以下错误：

[错误] 无法在项目 Miner 上执行目标：无法解析项目 Miner:war:1.0-SNAPSHOT 的依赖项：无法在 org.grobid:grobid-core:jar:0.3.4 -> org.chasen:crfpp 收集依赖项:jar:1.0.2: 无法读取 org.chasen:crfpp:jar:1.0.2 的工件描述符：无法将工件 org.chasen:crfpp:pom:1.0.2 从/向 3rd-party-local-repo 传输(file:///${basedir}/lib/)：存储库路径/${basedir}/lib 不存在，无法创建。-> [帮助 1]

我已经经历了不同的相关问题..我在添加 pom 等后尝试过。仍然无法正常工作..为什么会出现这个错误..我们是否必须为 Grobid 做额外的代码..？

java eclipse maven grobid

2017-01-30T09:23:42.407

0 投票

1 回答

273 浏览

python - Grobid 返回 500 类型错误

我正在尝试使用本地机器中内置的 Grobid，但此脚本打印 500 错误。而当我使用 Curl 从 CLI 执行此操作时，它工作正常。请帮忙！

python grobid

2017-07-05T21:55:56.523

0 投票

2 回答

339 浏览

python - 将 Grobid curl 命令转换为 Python 中的请求

我正在尝试将curl脚本转换为将 pdf 文件从grobid服务器解析为requestsPython。

基本上，如果我grobid按如下方式运行服务器，

我可以使用以下内容curl获取学术论文的解析 XML 的输出，example.pdf如下所示

但是，我不知道如何将此脚本转换为 Python。这是我尝试使用requests：

python curl python-requests grobid

2018-04-18T20:02:27.023

0 投票

1 回答

267 浏览

java - 在 Grobid 中使用 Gradle 时出现如下错误

我正在尝试在 Ubuntu 64 位中安装 Grobid。

参考自

请帮助我如何解决这个问题。

java gradle grobid

2018-07-02T14:07:43.420

0 投票

1 回答

500 浏览

python - 使用 Beautiful Soup 解析 Grobid .tei.xml 输出

我正在尝试使用 Beautiful Soup 从使用 Grobid 生成的 .tei.xml 文件中提取元素。

我可以使用以下方法获取标题：

访问“较低级别”元素的正确语法是什么？（作者/单位等）

这是 tei.xml 文件的一部分，它是 Grobid 输出：

谢谢。

python beautifulsoup grobid

2018-10-01T15:31:14.453

0 投票

1 回答

55 浏览

python - 我想安装 maven 以使用软件调用 GROBID

我尝试基于 https://maven.apache.org/install.html安装 maven onm win 10

用于安装软件 GROBID_NER

https://grobid-ner.readthedocs.io/en/latest/build-and-install/

但不幸的是我遇到了这个错误，谁能告诉我我该怎么做？

我认为这与我的 jdk 有关，我只是在第一个链接中提到的我的环境中添加了一个 JDK 的路径，有没有出错？

python maven installation grobid

2019-06-05T15:11:25.770

0 投票

1 回答

213 浏览

tika-server - 解析 pdf 文档时，带有 Grobid 的 Tika 抛出错误

我正在尝试从 pdf 文档中提取文档元数据和期刊标题元数据。我验证了 Tika Server (v1.21 / v1.24) 和 Grobid (v0.6.0) 能够独立地从 pdf 文档中提取元数据。但是，当我在 Tika Server 中运行 Grobid 时（遵循 https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的说明），对于同一个 pdf 文档，我收到以下错误（片段）：

我运行以下命令以使用 Grobid 启动 Tika Server：

我运行以下命令来测试元数据提取：

除了抛出上述错误之外，我还在输出中从 Tika 获取文档元数据。但是，Grobid 元数据并未被提取。

感谢任何输入/建议来解决这个问题。谢谢。

tika-server grobid

2020-07-16T10:29:50.753

1 2 3 4 5 6 7 8 9 10

问题标签 [grobid]

Reference