问题标签 [mecab]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在python中提取特定条件
我像这样创建python代码,但效果不佳。(结果不返回)
我只想提取“动词”“名词”“形容词”
你有什么主意吗?
太感谢了。
python - 使用 pip 安装 mecab-python3 的问题
今天我一直在尝试——但失败了——安装这个家伙(用于 Python 3.5+ 的 MeCab 库),以构建一个简单的个性化日语可读性分析工具(作为语言和数据书呆子的学习者)。
当然,我尝试的第一件事是简单的pip install mecab-python3
,看到这堵文字墙(过程和错误)。错误消息(可能)是mojibaked,这使得无法知道实际发生了什么。
我反复用谷歌搜索它的重要片段,这些片段是可读的,以寻找问题的答案,但没有任何结果与我的问题看起来完全相似。
然后我尝试从 pip 下载源代码并手动构建它。在最后的python setup.py build
命令之前它做得很好,结果是:
如果看不懂日文,基本上就是“找不到指定的文件”。不确定这指的是哪个文件,以及如何处理它。
我正在使用 Windows 10。
如果答案很明显,我深表歉意。我知道擅长某事并看到其他人无能为力是什么感觉,所以对于潜在的挫败感,我提前表示歉意。
谢谢!
mecab - 无法确定 MeCab 的输出字符编码
我正在尝试解析一些日文文本,但我似乎无法弄清楚输出编码。
这是我得到的输出:
我采取的步骤:
git clone https://github.com/taku910/mecab
cd mecab/mecab
./configure --enable-utf8-only --with-charset=utf8
make
sudo make install
mecab -o ~/Desktop/output.txt ~/Desktop/input.txt
,其中input.txt
包含“これは本です。”
使用 OSX 10.15.3
python - MeCab:“ImportError:DLL 加载失败:找不到指定的模块。”
这是我第一次使用python...
我使用win 10 + py38。我使用“pip mecab-python3”并成功安装了mecab-python3-1.0.1,但出现了问题。
问题如下:
我该如何处理这个问题?
docker-compose - 如何从另一个 docker 容器运行 mecab
我创建了以下 docker-compose 文件
并运行 docker-compose up --build -d
并运行 docker-compose exec web sh 并运行 ls -lt /tmp
并运行 ls -lt /usr/local/bin/mecab
所以我运行 mecab --help 但此应用程序无法使用以下错误
之后运行 find / -name libmecab.so.2
我应该重新安装 mecab 吗?但我想在不重新安装的情况下完成问题
如果你有什么想法让我知道
python - 如何在 aws lambda 中添加 mecab 包?
我的目标是:
在 AWS-lambda 上创建自定义 api,它使用 mecab 来分析数据。
问题是:
当我在 aws-lambda 上运行测试时,它会抛出这种错误。
mecab - 如何解释 mecab unidic csv 列
以下是 mecab unidic 的一些示例条目:
ネコ - 普通名词,一般,,,,ネコ,猫,ネコ,ネコ,ネコ,ネコ,和,,,,,,,,体,ネコ,ネコ,ネコ,ネコ,1,C4,,7918141644612096,28806
が - 助词,格助词,,,,,ガ,が,が,ガ,が,ガ,和,,,,,,,格助,ガ,ガ,ガ,ガ,,动词%F2@0,名词%F1,,2168520431510016,7889
流 - 名词, 普通名词, 一般,,,,ka, 流转, 流转,ka, 流转,ka, 和,,,,,,,, 体,ka,ka, ka,ka,0,C4,,1536851034907136,5591
を - 助词,格助词,,,,,ヲ,を,を,オ,を,オ,和,,,,,,,格助,ヲ,ヲ,ヲ,ヲ,,动词%F2@0,名词%F1,形容词%F2@-1,,11381878116459008,41407
如您所见,这些 unidic 条目中有 30 个 csv 列。它们都代表什么?
docker - 尝试使用 PyPy docker 映像安装 Mecab 时出现“'gcc' failed with exit status 1”
尝试使用 CPython 使用 image tag安装 3rd 方包 Mecab ( https://pypi.org/project/mecab/python:3.8-slim
) 时,我的 Docker 映像构建得很好,但 PyPy 失败。
我的 Dockerfile:
以及完整的错误输出:
我尝试添加gcc
到安装,但它没有解决问题。Mecab 与 PyPy 不兼容吗?
ubuntu - 在使用 UniDic 2.3.0 构建 MeCab 0.996 用户字典时,如何确定左右上下文 ID 应该是什么?
我正在尝试使用以下终端命令在 Ubuntu 20.10 上使用UniDic CWJ 2.3.0构建MeCab 0.996用户字典:
其中 foo.csv 是:
但我得到这个错误:
这个未解决的 GitHub 问题帖子似乎是相关的,但超出了我的想象:https ://github.com/taku910/mecab/issues/42
我可以使用较旧的unidic-mecab-2.1.2构建 MeCab 用户字典:
我还可以使用unidic-py 文档中的 reiwa.33.csv 构建用户字典:
reiwa.33.csv 是:
因此,两个 csv 文件之间的区别在于,在 reiwa.33.csv 中为每个表面形式(以及为某些但不是所有条目的 aType 和 lemma_id)指定了左右上下文 ID,但在 foo 中没有。 .csv。
根据 MeCab 的说明,mecab-dict-index 会自动分配左右 ID,unidic-mecab-2.1.2 似乎是这种情况,但对于 UniDic 2.3.0 则不然。
所以,我想问题变成了:如何确定左右上下文 ID 应该是什么?某处有解释吗?