问题标签 [mecab]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1831 浏览

nlp - MeCab 输出和标签集是什么?

有人可以告诉我 MeCab 默认输出吗?MeCab 输出什么注释,我在哪里可以找到形态分析器的标记集

http://mecab.sourceforge.net/

任何人都可以破译 MeCab 的这个输出吗?

0 投票
2 回答
2688 浏览

java - 如何编译调用 MeCab - 日语词性和形态分析器的 java 文件?

我正在尝试使用 MeCab (http://mecab.sourceforge.net/#download) 对日语句子进行分词,并按词性标记每个单词。我按照这些说明http://mecab.sourceforge.net/#install-unix安装了 MeCab 。由于我不想编写 shell 脚本来处理 150,000 个句子(因为我的 Mac OS X 终端无法显示日文字符),我正在使用现有的 Java 绑定:http: //sourceforge.net/projects/mecab/files /mecab-java/0.98pre3/。此时我正在尝试编译并运行给定的 test.java 文件:

这是自述文件:

我编译:javac test.java。然后我运行:java -classpath MeCab.jar test -d ../dic。结果是以下错误:

我不是很了解这个mecab-java-0.98pre3 目录的层次结构,所以看不到如何实际编译和运行这个test.java。有什么想法吗,伙计们?谢谢!

0 投票
1 回答
1824 浏览

c# - 试图让 libmecab.dll (MeCab) 与 C# 一起工作

我正在尝试在 C# 程序(Visual Studio 2010 Express,Windows 7)中使用日语形态分析器MeCab,但编码出现问题。如果我的输入(粘贴到文本框中)是这样的:

我猜那是一些其他编码的文本被误认为是 UTF-8 编码的文本。但是假设它是 EUC-JP 并使用 Encoding.Convert 将其转换为 UTF-8 并不会改变输出;假设它是 Shift-JIS 并且做同样的事情会产生不同的乱码。此外,虽然它确实在处理文本 - 这就是 MeCab 输出应该被格式化的方式 - 它似乎也没有将输入解释为 UTF-8。如果这样做,输出中就不会出现所有以单字符“复合”开头的相同行,而这显然无法识别。

当我通过 MeCab 的命令行运行这句话时,我又得到了另一组看起来不同的乱码。但是,再一次,它只是左侧的一排问号和括号,所以这不仅仅是 Windows 命令行不支持带有日文字符的字体的问题。再次,它只是没有以 UTF-8 格式读取输入。(我确实以 UTF-8 模式安装了 MeCab。)

代码的相关部分如下所示:

(在摆弄看似合理的东西以查看它们是否有所作为方面,我尝试将“UnmanagedType.AnsiBStr”切换为“UnmanagedType.BStr”,这会给出错误“AccessViolationException was unhandled”,并添加“CharSet= CharSet.Unicode" 到 DllImport 参数,它把输出变成了 "EOS"。)

这就是我进行转换的方式:

建议/嘲讽?

0 投票
2 回答
1341 浏览

parsing - 如何将 var 传递给 MeCab for Python?

代码是:

问题是在将字符串输入 raw_input 后​​,它会在 IDLE 中出现错误:

但是,如果我这样做:

我得到了正确的结果:

我尝试过的事情是一开始的 unicode 标签,用 unicode 写入文本文件并解析文本,以及其他几百万件事情。我正在运行 Python 2.7 和 MeCab 0.98。如果这不能回答,即使是对错误的一点点了解也将不胜感激。

0 投票
2 回答
1405 浏览

python - Python 2.7 - 你如何将 MeCab 解析的信息写入文本文件?

我编写了一个允许日文输入的 GUI,当您转到文件 > 解析时,它会写入文本文件。然后,该文本文件将通过 MeCab 运行,其中在单词之间放置空格。之后应该再次将其写入文本文件,以便可以在另一个 GUI 窗口中显示。

我遇到的问题是它不想将解析后的数据写入文本文件。第一次写没有问题。此外,它将解析的信息打印到 IDLE 也没有问题。这是解析器和错误:


0 投票
1 回答
529 浏览

java - MeCab 路径参数在 Windows 上不接受空格

我已成功使用MeCab Java从我的 Java 代码中调用Mecab 。我使用以下语句来初始化标记器:

现在我面临一个filePath可能实际上包含空格字符的问题,例如:c:\folder name\. 当我尝试使用这样的路径时,我从 Mecab 收到错误消息:

这意味着 Mecab 没有正确识别空格。

知道如何指导 Mecab 接受 Windows 文件路径中的白景吗?

0 投票
2 回答
824 浏览

nlp - 如何向 MeCab 添加停用词?

我想在 MeCab 中添加停用词——比如“我”、“你”或其他词。但我在 MeCab 的手册上找不到任何停用词的信息。

0 投票
1 回答
2296 浏览

ios - iOS 上 MeCab Japanese tokenizer 的选项?

我正在使用位于https://github.com/FLCLjp/iPhone-libmecab的 MeCab 的 iPhone 库。我很难让它标记所有可能的单词。具体来说,我无法将“吉本兴业”分为“吉本”和“兴业”两部分。有什么选项可以用来解决这个问题吗?iPhone 库没有公开任何内容,但它在objective-c 包装器下使用C++。我认为必须有某种设置我可以更改以提供更细粒度的控制,但我不知道从哪里开始。

顺便说一句,如果有人想标记这个“mecab”,那可能是合适的。我还不允许创建新标签。

更新:iOS 库正在调用 libmecab.cpp 中定义的 mecab_sparse_tonode2()。如果有人可以向我指出该文件上的一些英文文档,那可能就足够了。

0 投票
1 回答
737 浏览

python - Mac 10.8.3 MeCab Python“找不到符号”错误

我安装了“ https://code.google.com/p/mecab/downloads/list ”。

也许 RUBY 用户有同样的错误。 http://www.sssg.org/blogs/naoya/archives/2183

但我不知道红宝石。所以我不明白他们的固定解决方案。

LZ,帮帮我~!

0 投票
3 回答
394 浏览

lua - 如何将 Lua 与 Mecab 绑定?

我想在Lua中使用Mecab,但我真的不知道绑定的过程,我没有windows 7,bingdings的意思是创建一个共享库吗?如果是这样?如何?我看到一些关于 Java 的绑定文件,org.chasen.mecab 包中的文件显示它是由 swig 创建的,这让我感到困惑。那么它是从哪里派生的?还是自己写?绑定后,如果我想在 Lua 中使用,我应该怎么做,顺便说一句,我使用 mingw。有人可以给我一些简单的步骤,我可以继续努力。

对greatwolf:我使用以下命令来做到这一点

我在下面遇到错误。

这些函数好像是在mecab.h中声明的,但我不知道如何处理。