“mecab”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

237 浏览

nlp - 可以平衡 unidic 与 unidic-neologd 吗？

与句子“场所は多少わかりづらいんですけど、感じのいいところでした。”（即“有点难找，但它是个好地方。”）使用mecab与-d mecab-unidic-neologd第一行输出是：

即它说“场所”是一个人的姓氏。使用普通的 mecab-unidic 它更准确地说“场所”只是一个简单的名词。

我的第一个问题是 unidic-neologd 是否替换了 unidic 中的所有条目，还是只是简单地附加了 300 万个专有名词？

然后，其次，假设它是一个合并，是否有可能重新加权条目，以更强烈地偏爱普通的 unidic 条目？即我很想得到中居正広のミになる図书馆和 SMAP 都被识别为单个专有名词，但我也需要它来看到场所总是意味着“地方”（除非它后面跟着当然是名字后缀，例如さん或様）。

参考文献：unidic-neologd

nlp mecab

2017-07-16T18:07:49.637

0 投票

1 回答

217 浏览

mecab - 为什么行ける解析成单个token，而见られる解析成2（见+られる）？

两者都代表不同类型动词的相同形式——它们不应该都解析成一个标记吗？即使 2 个标记更有意义，它们也应该是一致的，并且我认为它们都可以解析为 2。

编辑：在评论中指出，见られる也可能是被动的——另一个例子是食べれる，它也标记为 2 个标记（食べ+れる），但肯定是有潜力的。

mecab

2017-07-28T03:48:46.520

0 投票

1 回答

101 浏览

data-science-experience - 我可以在 IBM Data Science Experience 上使用 MeCab

我想在 IBM Data Science Experience 上使用 Mecab。

https://pypi.python.org/pypi/mecab-python3

可能吗？

data-science-experience mecab

2017-09-24T08:51:05.253

0 投票

1 回答

510 浏览

django - 如何为我的 Django Zappa 项目使用非 Python 依赖项？

我正在使用一个名为natto-py的 Python 包，它需要一个名为 MeCab的非 Python 日语标记器。

是否可以将其用于我的 Zappa 项目？MeCab 如何安装在 Lambda 上（因为 pip 不起作用）？

Django 1.10 和 Python 3.5

django aws-lambda serverless-framework zappa mecab

2017-11-26T23:40:57.960

0 投票

2 回答

796 浏览

python - Pandas Series.apply 不起作用，由字符串组成

似乎可能与日语问题有关，所以我也用日语 StackOverflow提问。

当我使用字符串只是对象时，它工作正常。

我尝试编码，但找不到此错误的原因。你能给我建议吗？

MeCab 是一个开源文本分割库，用于处理用日语编写的文本，最初由奈良科学技术学院开发，目前由 Taku Kudou (工藤拓) 作为他在 Google 日语输入项目中工作的一部分进行维护。 https://en.wikipedia.org/wiki/MeCab

样本.csv

这是熊猫 Python3 代码

这是跟踪错误

python python-3.x pandas mecab

2018-01-16T17:04:23.023

0 投票

1 回答

179 浏览

java - elasticsearch no MeCab in java.library.pat 错误

安装 elasticsearch 5.2 和 mecab-ko、mecab-ko-dict、analysis-mecab-ko（elasticsearch mecab 插件）后，我无法在 elasticsearch 中使用 mecab 分词器，我可以像这样创建索引 mecab 分词器：

但以下 curl 命令不起作用。

执行上述命令后，以下日志显示在 /var/log/elasticsearch/elasticsearch.log 中：

尝试和检查：

java python elasticsearch mecab

2018-02-06T02:24:06.513

0 投票

0 回答

85 浏览

r - 无法使用 rtweet 和 RMeCab 标记器正确获取字符编码

我正在尝试给我的日语推文发短信，并且遇到了看似无法解决的字符编码问题。

在挖掘推文并设置语言环境后，Sys.setlocale("LC_ALL", "Japanese_Japan.932")我得到了一个看起来符合预期的数据框：

我想通过日语的 Tokenizer 运行这些推文，即RMeCab基于MeCab（全部可用here）。MeCab可以在和其他一些中编译UTF-8，SHIFT-JIS但是以另一种编码重新编译不会使我的问题消失甚至改变最终结果。

因此，在编译MeCab和安装之后RMeCab，我提取了第一条推文并尝试使用

这会产生以下输出：

不幸的是，这些不是正确的日文字符。我尝试了以下交替SHIFT-JIS和UTF-8编码（以及这些更改的所有组合）来克服这个问题：

使用不同的编码打开 R 脚本（有所不同，但只是显示不同的乱码，所以我假设乱码发生在 RMeCab 中）
Sys.setlocale("LC_ALL", "English_United States.1252")在和之间切换语言环境Sys.setlocale("LC_ALL", "Japanese_Japan.932")
以不同的编码重新编译 MeCab

我现在排在最后，想寻求帮助。

编辑：我现在发现iconv (result, from = "UTF8", to = "UTF-8")在标记化（和乱码）字符串上运行转换会显示标记的正确日文字符。这看起来没有多大意义，但它确实有效。但是，我想避免这个额外的步骤，因为转换仅适用于字符串，而不适用于列表或向量。

r utf-8 character-encoding rtweet mecab

2018-06-21T08:26:42.377

0 投票

0 回答

27 浏览

mysql - mysql mecab 插件在 myisam 引擎上不起作用

最近碰巧在mysql上查了mecab插件。

在mysql 手册页上，它说 mecab 插件适用于 myisam 和 innodb 引擎。

但是我发现它不适用于 myisam 引擎。

当我在使用 myisam 引擎制作的表上使用 mecab 插件创建全文索引时，完整搜索的结果总是返回表中的所有记录。

但是在使用 innodb 引擎制作的桌子上，完整的搜索功能可以正常工作。

那么有人对myisam引擎上的mecab插件有一些经验吗？

问候。

mysql plugins full-text-search mecab

2018-07-02T03:49:20.447

0 投票

1 回答

675 浏览

installation - 在 Ubuntu 16.04 上为 mecab Japanese tokenizer 安装 ipadic

我正在尝试安装 mecab 和 ipadic 字典，如下所述：http: //taku910.github.io/mecab/#install-unix

我能够成功下载 mecab 并安装它并成功下载 ipadic 但卡在下面的第二行指令中：

我正进入（状态：

mecab-ipadic-2.7.0-20070801: command not found

我试过了chmod -x了它，然后尝试了它，但结果相同。

任何帮助表示赞赏。

编辑（cat /etc/mecabrc 的结果）

installation tokenize mecab

2018-07-09T13:09:33.097

0 投票

1 回答

142 浏览

docker - 在 rbenv 环境中为 gem-mecab 制作 docker 镜像时出错

当我为 docker 图像制作 dockerfile 时。安装 ruby 和 rubygems 后，我想安装 gem-mecab，但是没有用。

然后我构建它，错误就出来了。

正如我在下面所说，我设置了 PATH 并使用了 rbenv rehash 命令，但仍然不适合我。alpine 与 centOS 略有不同。

docker rubygems dockerfile rbenv mecab

2018-07-31T07:19:43.750

问题标签 [mecab]

Reference