问题标签 [mecab]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
106 浏览

python - 在python中提取特定条件

我像这样创建python代码,但效果不佳。(结果不返回)

我只想提取“动词”“名词”“形容词”

你有什么主意吗?

太感谢了。

0 投票
2 回答
424 浏览

python - 使用 pip 安装 mecab-python3 的问题

今天我一直在尝试——但失败了——安装这个家伙(用于 Python 3.5+ 的 MeCab 库),以构建一个简单的个性化日语可读性分析工具(作为语言和数据书呆子的学习者)。

当然,我尝试的第一件事是简单的pip install mecab-python3,看到这堵文字墙(过程和错误)。错误消息(可能)是mojibaked,这使得无法知道实际发生了什么。

我反复用谷歌搜索它的重要片段,这些片段是可读的,以寻找问题的答案,但没有任何结果与我的问题看起来完全相似。

然后我尝试从 pip 下载源代码并手动构建它。在最后的python setup.py build命令之前它做得很好,结果是:

如果看不懂日文,基本上就是“找不到指定的文件”。不确定这指的是哪个文件,以及如何处理它。

我正在使用 Windows 10。

如果答案很明显,我深表歉意。我知道擅长某事并看到其他人无能为力是什么感觉,所以对于潜在的挫败感,我提前表示歉意。

谢谢!

0 投票
0 回答
176 浏览

mecab - 无法确定 MeCab 的输出字符编码

我正在尝试解析一些日文文本,但我似乎无法弄清楚输出编码。

这是我得到的输出:

我采取的步骤:

  1. git clone https://github.com/taku910/mecab
  2. cd mecab/mecab
  3. ./configure --enable-utf8-only --with-charset=utf8
  4. make
  5. sudo make install
  6. mecab -o ~/Desktop/output.txt ~/Desktop/input.txt,其中input.txt包含“これは本です。”

使用 OSX 10.15.3

0 投票
2 回答
392 浏览

python - MeCab:“ImportError:DLL 加载失败:找不到指定的模块。”

这是我第一次使用python...

我使用win 10 + py38。我使用“pip mecab-python3”并成功安装了mecab-python3-1.0.1,但出现了问题。

问题如下:

我该如何处理这个问题?

0 投票
0 回答
59 浏览

docker-compose - 如何从另一个 docker 容器运行 mecab

我创建了以下 docker-compose 文件

并运行 docker-compose up --build -d

并运行 docker-compose exec web sh 并运行 ls -lt /tmp

并运行 ls -lt /usr/local/bin/mecab

所以我运行 mecab --help 但此应用程序无法使用以下错误

之后运行 find / -name libmecab.so.2

我应该重新安装 mecab 吗?但我想在不重新安装的情况下完成问题

如果你有什么想法让我知道

0 投票
1 回答
96 浏览

python - 如何在 aws lambda 中添加 mecab 包?

  • 我的目标是:

    在 AWS-lambda 上创建自定义 api,它使用 mecab 来分析数据。

  • 问题是:

    当我在 aws-lambda 上运行测试时,它会抛出这种错误。

0 投票
1 回答
70 浏览

mecab - 如何解释 mecab unidic csv 列

以下是 mecab unidic 的一些示例条目:

ネコ - 普通名词,一般,,,,ネコ,猫,ネコ,ネコ,ネコ,ネコ,和,,,,,,,,体,ネコ,ネコ,ネコ,ネコ,1,C4,,7918141644612096,28806

が - 助词,格助词,,,,,ガ,が,が,ガ,が,ガ,和,,,,,,,格助,ガ,ガ,ガ,ガ,,动词%F2@0,名词%F1,,2168520431510016,7889

流 - 名词, 普通名词, 一般,,,,ka, 流转, 流转,ka, 流转,ka, 和,,,,,,,, 体,ka,ka, ka,ka,0,C4,,1536851034907136,5591

を - 助词,格助词,,,,,ヲ,を,を,オ,を,オ,和,,,,,,,格助,ヲ,ヲ,ヲ,ヲ,,动词%F2@0,名词%F1,形容词%F2@-1,,11381878116459008,41407

如您所见,这些 un​​idic 条目中有 30 个 csv 列。它们都代表什么?

0 投票
1 回答
330 浏览

docker - 尝试使用 PyPy docker 映像安装 Mecab 时出现“'gcc' failed with exit status 1”

尝试使用 CPython 使用 image tag安装 3rd 方包 Mecab ( https://pypi.org/project/mecab/python:3.8-slim ) 时,我的 Docker 映像构建得很好,但 PyPy 失败。

我的 Dockerfile:

以及完整的错误输出:

我尝试添加gcc到安装,但它没有解决问题。Mecab 与 PyPy 不兼容吗?

0 投票
1 回答
165 浏览

ubuntu - 在使用 UniDic 2.3.0 构建 MeCab 0.996 用户字典时,如何确定左右上下文 ID 应该是什么?

我正在尝试使用以下终端命令在 Ubuntu 20.10 上使用UniDic CWJ 2.3.0构建MeCab 0.996用户字典:

其中 foo.csv 是:

但我得到这个错误:

这个未解决的 GitHub 问题帖子似乎是相关的,但超出了我的想象:https ://github.com/taku910/mecab/issues/42

我可以使用较旧的unidic-mecab-2.1.2构建 MeCab 用户字典:

我还可以使用unidic-py 文档中的 reiwa.33.csv 构建用户字典:

reiwa.33.csv 是:

因此,两个 csv 文件之间的区别在于,在 reiwa.33.csv 中为每个表面形式(以及为某些但不是所有条目的 aType 和 lemma_id)指定了左右上下文 ID,但在 foo 中没有。 .csv。

根据 MeCab 的说明,mecab-dict-index 会自动分配左右 ID,unidic-mecab-2.1.2 似乎是这种情况,但对于 UniDic 2.3.0 则不然。

所以,我想问题变成了:如何确定左右上下文 ID 应该是什么?某处有解释吗?

0 投票
1 回答
235 浏览

vb.net - 在vb.net中使用MeCab将日语句子分成单词而不是词素