问题标签 [mecab]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
237 浏览

nlp - 可以平衡 unidic 与 unidic-neologd 吗?

与句子“场所は多少わかりづらいんですけど、感じのいいところでした。”(即“有点难找,但它是个好地方。”)使用mecab-d mecab-unidic-neologd第一行输出是:

即它说“场所”是一个人的姓氏。使用普通的 mecab-unidic 它更准确地说“场所”只是一个简单的名词。

我的第一个问题是 unidic-neologd 是否替换了 unidic 中的所有条目,还是只是简单地附加了 300 万个专有名词?

然后,其次,假设它是一个合并,是否有可能重新加权条目,以更强烈地偏爱普通的 unidic 条目?即我很想得到中居正広のミになる図书馆和 SMAP 都被识别为单个专有名词,但我也需要它来看到场所总是意味着“地方”(除非它后面跟着当然是名字后缀,例如さん或様)。

参考文献:unidic-neologd

0 投票
1 回答
217 浏览

mecab - 为什么行ける解析成单个token,而见られる解析成2(见+られる)?

两者都代表不同类型动词的相同形式——它们不应该都解析成一个标记吗?即使 2 个标记更有意义,它们也应该是一致的,并且我认为它们都可以解析为 2。

编辑:在评论中指出,见られる也可能是被动的——另一个例子是食べれる,它也标记为 2 个标记(食べ+れる),但肯定是有潜力的。

0 投票
1 回答
101 浏览

data-science-experience - 我可以在 IBM Data Science Experience 上使用 MeCab

我想在 IBM Data Science Experience 上使用 Mecab。

https://pypi.python.org/pypi/mecab-python3

可能吗?

0 投票
1 回答
510 浏览

django - 如何为我的 Django Zappa 项目使用非 Python 依赖项?

我正在使用一个名为natto-py的 Python 包,它需要一个名为MeCab的非 Python 日语标记器。

是否可以将其用于我的 Zappa 项目?MeCab 如何安装在 Lambda 上(因为 pip 不起作用)?

Django 1.10 和 Python 3.5

0 投票
2 回答
796 浏览

python - Pandas Series.apply 不起作用,由字符串组成

似乎可能与日语问题有关,所以我也用日语 StackOverflow提问。

当我使用字符串只是对象时,它工作正常。

我尝试编码,但找不到此错误的原因。你能给我建议吗?

MeCab 是一个开源文本分割库,用于处理用日语编写的文本,最初由奈良科学技术学院开发,目前由 Taku Kudou (工藤拓) 作为他在 Google 日语输入项目中工作的一部分进行维护。 https://en.wikipedia.org/wiki/MeCab

样本.csv

这是熊猫 Python3 代码

这是跟踪错误

0 投票
1 回答
179 浏览

java - elasticsearch no MeCab in java.library.pat 错误

安装 elasticsearch 5.2 和 mecab-ko、mecab-ko-dict、analysis-mecab-ko(elasticsearch mecab 插件)后,我无法在 elasticsearch 中使用 mecab 分词器,我可以像这样创建索引 mecab 分词器:

但以下 curl 命令不起作用。

执行上述命令后,以下日志显示在 /var/log/elasticsearch/elasticsearch.log 中:

尝试和检查:

0 投票
0 回答
85 浏览

r - 无法使用 rtweet 和 RMeCab 标记器正确获取字符编码

我正在尝试给我的日语推文发短信,并且遇到了看似无法解决的字符编码问题。

在挖掘推文并设置语言环境后,Sys.setlocale("LC_ALL", "Japanese_Japan.932")我得到了一个看起来符合预期的数据框:

在此处输入图像描述

我想通过日语的 Tokenizer 运行这些推文,即RMeCab基于MeCab全部可用here)。MeCab可以在和其他一些中编译UTF-8SHIFT-JIS但是以另一种编码重新编译不会使我的问题消失甚至改变最终结果。

因此,在编译MeCab和安装之后RMeCab,我提取了第一条推文并尝试使用

这会产生以下输出:

在此处输入图像描述

不幸的是,这些不是正确的日文字符。我尝试了以下交替SHIFT-JISUTF-8编码(以及这些更改的所有组合)来克服这个问题:

  • 使用不同的编码打开 R 脚本(有所不同,但只是显示不同的乱码,所以我假设乱码发生在 RMeCab 中)
  • Sys.setlocale("LC_ALL", "English_United States.1252")在和之间切换语言环境Sys.setlocale("LC_ALL", "Japanese_Japan.932")
  • 以不同的编码重新编译 MeCab

我现在排在最后,想寻求帮助。

编辑:我现在发现iconv (result, from = "UTF8", to = "UTF-8")在标记化(和乱码)字符串上运行转换会显示标记的正确日文字符。这看起来没有多大意义,但它确实有效。但是,我想避免这个额外的步骤,因为转换仅适用于字符串,而不适用于列表或向量。

0 投票
0 回答
27 浏览

mysql - mysql mecab 插件在 myisam 引擎上不起作用

最近碰巧在mysql上查了mecab插件。

mysql 手册页上,它说 mecab 插件适用于 myisam 和 innodb 引擎。

但是我发现它不适用于 myisam 引擎。

当我在使用 myisam 引擎制作的表上使用 mecab 插件创建全文索引时,完整搜索的结果总是返回表中的所有记录。

但是在使用 innodb 引擎制作的桌子上,完整的搜索功能可以正常工作。

那么有人对myisam引擎上的mecab插件有一些经验吗?

问候。

0 投票
1 回答
675 浏览

installation - 在 Ubuntu 16.04 上为 mecab Japanese tokenizer 安装 ipadic

我正在尝试安装 mecab 和 ipadic 字典,如下所述:http: //taku910.github.io/mecab/#install-unix

我能够成功下载 mecab 并安装它并成功下载 ipadic 但卡在下面的第二行指令中:

我正进入(状态:

mecab-ipadic-2.7.0-20070801: command not found

我试过了chmod -x了它,然后尝试了它,但结果相同。

任何帮助表示赞赏。

编辑(cat /etc/mecabrc 的结果)

0 投票
1 回答
142 浏览

docker - 在 rbenv 环境中为 gem-mecab 制作 docker 镜像时出错

当我为 docker 图像制作 dockerfile 时。安装 ruby​​ 和 ruby​​gems 后,我想安装 gem-mecab,但是没有用。

然后我构建它,错误就出来了。

正如我在下面所说,我设置了 PATH 并使用了 rbenv rehash 命令,但仍然不适合我。alpine 与 centOS 略有不同。