问题标签 [mecab]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
39 浏览

python - 如何为 NLP 解析 Python 中的每个索引

我想解析 DataFrame 的每个索引,以便使用 nlpot 可视化单词。

现在,我成功执行了数据框的一个句子。

我尝试了几种方法来解析数据帧的每个索引,但都没有成功。如果您能给我一些建议,将不胜感激。

0 投票
1 回答
148 浏览

text-mining - 向 fugashi 词典添加新词

我正在使用 fugashi 从句子中提取单词。如何将不在 fugacy 字典中的新术语添加到字典中?

例如,YouTube 分为“You”和“Tube”。

=> ['ユー', 'チューブ']

0 投票
0 回答
16 浏览

mecab - 如何将 mecab-ko 作为 AWS Lambda 层?

如何在 aws lambda 中添加 mecab 库的答案,我可以制作 mecab 库的 lambda 层。然而,mecab-ko 似乎并没有以同样的方式工作。有人可以指导我吗?

0 投票
1 回答
215 浏览

python - 致命错误 C1083:无法打开包含文件:'mecab.h':没有这样的文件或目录

我尝试在 Windows 64 位机器上从源代码和通过 pip 安装 mecab-python-windows 包。在这两种情况下,我都会收到以下错误:

我该如何处理这个错误?我在哪里可以找到 mecab.h 文件,我应该把它放在哪里?我真的很感激任何建议!谢谢!

0 投票
1 回答
199 浏览

python - Windows 上的 Python mecab 包导入错误“未定义”

我正在尝试在英文操作系统 Windows 10 上安装 mecab。我正在使用命令提示符并且只是这样做了;

看起来该软件包已安装;

但是,如果我去 python(通过在命令行中输入“python”)并执行;

我得到这个错误。

如果我尝试导入 MeCab.py 文件,我会得到;

我在环境变量中设置了 PYTHONPATH。没运气。

0 投票
1 回答
34 浏览

r - 如何在 Mac 上编辑 MeCab 词典?

如何在 Mac ver. 上更改单词的定义。出租车?我正在分析 R 上的文本数据,但某些字母(例如,“,()等)没有定义为符号,而是定义为名词。所以我不能排除这些字母,因为有些字母不被视为字符。例如我想执行如下代码

但这不起作用,因为我不能申请""这些信件。

所以我需要在 MeCab 字典中更改这些符号字母的定义。但我不知道该怎么做。这个问题一定是很初级的,但恐怕我不明白用Mac终端打开和编辑文件的方法。

PS 复制数据

pilot_data是数据框,IMAGE_total是开放式调查问题的答案。这些日文字符可能难以处理,我深表歉意。

0 投票
0 回答
65 浏览

mysql - 如何使用 MySQL MeCab Full-Text Parser Plugin 搜索确切的短语?

我正在使用 MySQL 8.0.27。

两个语句都在结果中显示“その小さな猫”。

文档说:

对于布尔模式搜索,搜索词被转换为搜索词组。

所以我希望不需要引号,但它在任何一种情况下都不起作用。

0 投票
0 回答
10 浏览

mecab - mecab python提取公司名称

我正在尝试在列中运行数据并使用 MeCab 库仅提取公司名称并将它们列出在新列中。目标列是一个注释列,其中包括员工姓名、公司名称、发票编号等全部或单独取决于交易。下面列出的是我试图仅提取公司名称的代码。请注意以下代码仍在生产中,但只是想发布一些内容。提前为我乱七八糟的编码道歉...

谢谢,

#组织名在日语中是公司名称的意思

0 投票
0 回答
27 浏览

mecab - Mecab自动分割大文件时输出奇怪的字符

如何防止Mecab在超过输入缓冲区文件大小而不增加输入缓冲区大小的情况下在EOS前后输入奇怪的字符?

当使用超过输入缓冲区大小的文件运行 mecab 时,它会自动拆分输出。这通常没问题,除了 EOS 之前和之后,还有以下无法识别的字符。

是否有任何设置阻止 mecab 输出这些奇怪的字符?我需要文件拆分以确保正确分组词素。浏览整个文件并手动删除它们并不是最好的选择,尤其是当我在 mecab 输出中有成千上万行(由于文件很多)时。

通过 Homebrew 和 Unidict 安装 mecab