问题标签 [behemoth]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
873 浏览

hadoop - 使用 Behemoth 和 map reduce 转换为 Tika 时配置对象时出错

我正在运行命令以使用本教程中给出的 map reduce 将巨兽语料库转换为 tika

我在执行此操作时遇到以下错误:

我无法理解确切的问题。可能的原因是什么?我是否需要将任何 jar 从 Behemoth/Tika 添加到 hadoop 工作目录?

0 投票
2 回答
139 浏览

hadoop - 生成 Behemoth 语料库时出错

我是 hadoop 和巨兽的新手,我按照https://github.com/DigitalPebble/behemoth/wiki/tutorial上的教程使用以下命令为文本文档生成巨兽语料库:

sudo bin/hadoop jar /home/madhumita/behemoth/core/target/behemoth-core-*-job.jar com.digitalpebble.behemoth.util.CorpusGenerator -i /home/madhumita/Documents/testFile -o /home/madhumita /巨兽/testGateOpCorpus

我收到错误消息:

错误 util.CorpusGenerator:输入不存在:/home/madhumita/Documents/testFile

每次我运行命令时,虽然我已经用 gedit 检查了路径是否正确。我在网上搜索了任何类似的问题,但我找不到任何类似的问题。关于它为什么会发生的任何想法?如果 .txt 文件格式不可接受,那么所需的文件格式是什么?

0 投票
1 回答
490 浏览

hadoop - solr 和 hadoop 之间的 Slf4j 兼容性问题

我在 hadoop 上使用庞然大物 solr,我在 slf4j 版本中遇到了冲突。Solr 3.6.2 使用 slf4j-api-1.6.1,hadoop 1.0.4 有 slf4j-api-1.4.3 的库。因此,我无法在 hadoop 上运行庞然大物 solr jar 文件。解决这种冲突的最佳方法是什么?一种选择是替换 hadoop 中的 slf4j 库,但我不愿意这样做。任何解决方案将不胜感激。

0 投票
1 回答
519 浏览

solr - SOLR 中的索引 GATE 注释

我需要将 GATE 处理后生成的所有注释和特征索引到 SOLR 中。我需要搜索注释和功能。做这个的最好方式是什么?我更喜欢将处理转移到hadoop。

我目前正在使用庞然大物,但它不索引注释和功能,它只索引文本。

有人可以帮我吗?

0 投票
1 回答
63 浏览

java - impl.ConcurrentUpdateSolrServer:状态:{file-path} 为 404

我想使用 solr 索引我的语料库。
要创建序列文件,我使用了以下命令:

在此之后,我给出了以下索引命令:
./behemoth solr /user/user-name/pTH-to-which-output-is-stored-in-previous-command http://localhost:8983/solr

但它给出了以下错误:

我无法找出问题所在,因为上述文件存在于该路径上。请帮忙