问题标签 [mecab]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 可以平衡 unidic 与 unidic-neologd 吗?
与句子“场所は多少わかりづらいんですけど、感じのいいところでした。”(即“有点难找,但它是个好地方。”)使用mecab
与-d mecab-unidic-neologd
第一行输出是:
即它说“场所”是一个人的姓氏。使用普通的 mecab-unidic 它更准确地说“场所”只是一个简单的名词。
我的第一个问题是 unidic-neologd 是否替换了 unidic 中的所有条目,还是只是简单地附加了 300 万个专有名词?
然后,其次,假设它是一个合并,是否有可能重新加权条目,以更强烈地偏爱普通的 unidic 条目?即我很想得到中居正広のミになる図书馆和 SMAP 都被识别为单个专有名词,但我也需要它来看到场所总是意味着“地方”(除非它后面跟着当然是名字后缀,例如さん或様)。
参考文献:unidic-neologd
mecab - 为什么行ける解析成单个token,而见られる解析成2(见+られる)?
两者都代表不同类型动词的相同形式——它们不应该都解析成一个标记吗?即使 2 个标记更有意义,它们也应该是一致的,并且我认为它们都可以解析为 2。
编辑:在评论中指出,见られる也可能是被动的——另一个例子是食べれる,它也标记为 2 个标记(食べ+れる),但肯定是有潜力的。
django - 如何为我的 Django Zappa 项目使用非 Python 依赖项?
我正在使用一个名为natto-py的 Python 包,它需要一个名为MeCab的非 Python 日语标记器。
是否可以将其用于我的 Zappa 项目?MeCab 如何安装在 Lambda 上(因为 pip 不起作用)?
Django 1.10 和 Python 3.5
python - Pandas Series.apply 不起作用,由字符串组成
似乎可能与日语问题有关,所以我也用日语 StackOverflow提问。
当我使用字符串只是对象时,它工作正常。
我尝试编码,但找不到此错误的原因。你能给我建议吗?
MeCab 是一个开源文本分割库,用于处理用日语编写的文本,最初由奈良科学技术学院开发,目前由 Taku Kudou (工藤拓) 作为他在 Google 日语输入项目中工作的一部分进行维护。 https://en.wikipedia.org/wiki/MeCab
样本.csv
这是熊猫 Python3 代码
这是跟踪错误
java - elasticsearch no MeCab in java.library.pat 错误
安装 elasticsearch 5.2 和 mecab-ko、mecab-ko-dict、analysis-mecab-ko(elasticsearch mecab 插件)后,我无法在 elasticsearch 中使用 mecab 分词器,我可以像这样创建索引 mecab 分词器:
但以下 curl 命令不起作用。
执行上述命令后,以下日志显示在 /var/log/elasticsearch/elasticsearch.log 中:
尝试和检查:
r - 无法使用 rtweet 和 RMeCab 标记器正确获取字符编码
我正在尝试给我的日语推文发短信,并且遇到了看似无法解决的字符编码问题。
在挖掘推文并设置语言环境后,Sys.setlocale("LC_ALL", "Japanese_Japan.932")
我得到了一个看起来符合预期的数据框:
我想通过日语的 Tokenizer 运行这些推文,即RMeCab
基于MeCab
(全部可用here)。MeCab
可以在和其他一些中编译UTF-8
,SHIFT-JIS
但是以另一种编码重新编译不会使我的问题消失甚至改变最终结果。
因此,在编译MeCab
和安装之后RMeCab
,我提取了第一条推文并尝试使用
这会产生以下输出:
不幸的是,这些不是正确的日文字符。我尝试了以下交替SHIFT-JIS
和UTF-8
编码(以及这些更改的所有组合)来克服这个问题:
- 使用不同的编码打开 R 脚本(有所不同,但只是显示不同的乱码,所以我假设乱码发生在 RMeCab 中)
Sys.setlocale("LC_ALL", "English_United States.1252")
在和之间切换语言环境Sys.setlocale("LC_ALL", "Japanese_Japan.932")
- 以不同的编码重新编译 MeCab
我现在排在最后,想寻求帮助。
编辑:我现在发现iconv (result, from = "UTF8", to = "UTF-8")
在标记化(和乱码)字符串上运行转换会显示标记的正确日文字符。这看起来没有多大意义,但它确实有效。但是,我想避免这个额外的步骤,因为转换仅适用于字符串,而不适用于列表或向量。
mysql - mysql mecab 插件在 myisam 引擎上不起作用
最近碰巧在mysql上查了mecab插件。
在mysql 手册页上,它说 mecab 插件适用于 myisam 和 innodb 引擎。
但是我发现它不适用于 myisam 引擎。
当我在使用 myisam 引擎制作的表上使用 mecab 插件创建全文索引时,完整搜索的结果总是返回表中的所有记录。
但是在使用 innodb 引擎制作的桌子上,完整的搜索功能可以正常工作。
那么有人对myisam引擎上的mecab插件有一些经验吗?
问候。
installation - 在 Ubuntu 16.04 上为 mecab Japanese tokenizer 安装 ipadic
我正在尝试安装 mecab 和 ipadic 字典,如下所述:http: //taku910.github.io/mecab/#install-unix
我能够成功下载 mecab 并安装它并成功下载 ipadic 但卡在下面的第二行指令中:
我正进入(状态:
mecab-ipadic-2.7.0-20070801: command not found
我试过了chmod -x
了它,然后尝试了它,但结果相同。
任何帮助表示赞赏。
编辑(cat /etc/mecabrc 的结果)
docker - 在 rbenv 环境中为 gem-mecab 制作 docker 镜像时出错
当我为 docker 图像制作 dockerfile 时。安装 ruby 和 rubygems 后,我想安装 gem-mecab,但是没有用。
然后我构建它,错误就出来了。
正如我在下面所说,我设置了 PATH 并使用了 rbenv rehash 命令,但仍然不适合我。alpine 与 centOS 略有不同。