问题标签 [grobid]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows - 在 64 位 Windows 上运行 Grobid
我正在尝试在 64 位 Windows 上执行GROBID 。
没有适用于 Windows 的库的 x64 位版本(至少我找不到)。它在带有 64 位 JRE 的 64 位 Linux 和带有 32 位 JRE 的 32 位 Windows 上运行。所以JRE的版本不是问题。
我了解我需要包含 64 位 Windows - libcrfpp 文件。但是我找不到它。你能告诉我在哪里可以找到它或帮助我执行它吗?
但是我收到如下错误 -
尝试在 Windows 64 上使用 64 位 JVM 运行它时出错 -
尝试在 Windows 64 上使用 32 位 JVM 运行它时出现更新错误 -
solr - 将 grobid 与 tika 和 solr 集成
我正在使用 Solr 来索引期刊文章。使用开箱即用的配置,它索引文档的文本,但我希望使用 Grobid 提取作者、标题、附属机构等。我启动了 grobid 并作为服务运行。
我添加了
<str name="tika.config">/path/to/tika-config.xml</str>
到 solrconfig.xml 中 /update/extract 的 requestHandler
tika-config 看起来像:
当我尝试导入文档时遇到 ClassNotFound 异常,但不知道在哪里设置类路径来修复它。
python - 编辑 python 配置文件以包含 Grobid 路径
我已经在所有段落之后从 github 安装了 Robot-reviewer。我在它问的最后一段
“编辑 robotsreviewer/config.py 文件以包含您安装 Grobid 的目录的路径。(RobotReviewer 将在子进程中自动启动它)。请注意,这应该是整个(父)Grobid 目录的路径,而不是bin 子文件夹。”
不幸的是,我没有找到任何教程来做到这一点,而且我对 python 不实用。我怎样才能做到这一点?
这个 repo 的 github 链接是https://github.com/ijmarshall/robotreviewer3
java - Maven-无法解决依赖关系
我是使用 Maven 的初学者。我尝试在 Maven 中添加 Grobid(用于 pdf 解析)。我给的依赖是:
但是在构建 pom 时,它显示以下错误:
[错误] 无法在项目 Miner 上执行目标:无法解析项目 Miner:war:1.0-SNAPSHOT 的依赖项:无法在 org.grobid:grobid-core:jar:0.3.4 -> org.chasen:crfpp 收集依赖项:jar:1.0.2: 无法读取 org.chasen:crfpp:jar:1.0.2 的工件描述符:无法将工件 org.chasen:crfpp:pom:1.0.2 从/向 3rd-party-local-repo 传输(file:///${basedir}/lib/):存储库路径/${basedir}/lib 不存在,无法创建。-> [帮助 1]
我已经经历了不同的相关问题..我在添加 pom 等后尝试过。仍然无法正常工作..为什么会出现这个错误..我们是否必须为 Grobid 做额外的代码..?
python - Grobid 返回 500 类型错误
我正在尝试使用本地机器中内置的 Grobid,但此脚本打印 500 错误。而当我使用 Curl 从 CLI 执行此操作时,它工作正常。请帮忙!
python - 将 Grobid curl 命令转换为 Python 中的请求
我正在尝试将curl
脚本转换为将 pdf 文件从grobid
服务器解析为requests
Python。
基本上,如果我grobid
按如下方式运行服务器,
我可以使用以下内容curl
获取学术论文的解析 XML 的输出,example.pdf
如下所示
但是,我不知道如何将此脚本转换为 Python。这是我尝试使用requests
:
java - 在 Grobid 中使用 Gradle 时出现如下错误
我正在尝试在 Ubuntu 64 位中安装 Grobid。
参考自
请帮助我如何解决这个问题。
python - 使用 Beautiful Soup 解析 Grobid .tei.xml 输出
我正在尝试使用 Beautiful Soup 从使用 Grobid 生成的 .tei.xml 文件中提取元素。
我可以使用以下方法获取标题:
访问“较低级别”元素的正确语法是什么?(作者/单位等)
这是 tei.xml 文件的一部分,它是 Grobid 输出:
谢谢。
python - 我想安装 maven 以使用软件调用 GROBID
我尝试基于 https://maven.apache.org/install.html安装 maven onm win 10
用于安装软件 GROBID_NER
https://grobid-ner.readthedocs.io/en/latest/build-and-install/
但不幸的是我遇到了这个错误,谁能告诉我我该怎么做?
我认为这与我的 jdk 有关,我只是在第一个链接中提到的我的环境中添加了一个 JDK 的路径,有没有出错?
tika-server - 解析 pdf 文档时,带有 Grobid 的 Tika 抛出错误
我正在尝试从 pdf 文档中提取文档元数据和期刊标题元数据。我验证了 Tika Server (v1.21 / v1.24) 和 Grobid (v0.6.0) 能够独立地从 pdf 文档中提取元数据。但是,当我在 Tika Server 中运行 Grobid 时(遵循 https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser中提到的说明),对于同一个 pdf 文档,我收到以下错误(片段):
我运行以下命令以使用 Grobid 启动 Tika Server:
我运行以下命令来测试元数据提取:
除了抛出上述错误之外,我还在输出中从 Tika 获取文档元数据。但是,Grobid 元数据并未被提取。
感谢任何输入/建议来解决这个问题。谢谢。