问题标签 [mecab]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何为 NLP 解析 Python 中的每个索引
我想解析 DataFrame 的每个索引,以便使用 nlpot 可视化单词。
现在,我成功执行了数据框的一个句子。
我尝试了几种方法来解析数据帧的每个索引,但都没有成功。如果您能给我一些建议,将不胜感激。
text-mining - 向 fugashi 词典添加新词
我正在使用 fugashi 从句子中提取单词。如何将不在 fugacy 字典中的新术语添加到字典中?
例如,YouTube 分为“You”和“Tube”。
=> ['ユー', 'チューブ']
mecab - 如何将 mecab-ko 作为 AWS Lambda 层?
从如何在 aws lambda 中添加 mecab 库的答案,我可以制作 mecab 库的 lambda 层。然而,mecab-ko 似乎并没有以同样的方式工作。有人可以指导我吗?
python - 致命错误 C1083:无法打开包含文件:'mecab.h':没有这样的文件或目录
我尝试在 Windows 64 位机器上从源代码和通过 pip 安装 mecab-python-windows 包。在这两种情况下,我都会收到以下错误:
我该如何处理这个错误?我在哪里可以找到 mecab.h 文件,我应该把它放在哪里?我真的很感激任何建议!谢谢!
python - Windows 上的 Python mecab 包导入错误“未定义”
我正在尝试在英文操作系统 Windows 10 上安装 mecab。我正在使用命令提示符并且只是这样做了;
看起来该软件包已安装;
但是,如果我去 python(通过在命令行中输入“python”)并执行;
我得到这个错误。
如果我尝试导入 MeCab.py 文件,我会得到;
我在环境变量中设置了 PYTHONPATH。没运气。
r - 如何在 Mac 上编辑 MeCab 词典?
如何在 Mac ver. 上更改单词的定义。出租车?我正在分析 R 上的文本数据,但某些字母(例如,“,()等)没有定义为符号,而是定义为名词。所以我不能排除这些字母,因为有些字母不被视为字符。例如我想执行如下代码
但这不起作用,因为我不能申请""
这些信件。
所以我需要在 MeCab 字典中更改这些符号字母的定义。但我不知道该怎么做。这个问题一定是很初级的,但恐怕我不明白用Mac终端打开和编辑文件的方法。
PS 复制数据
pilot_data
是数据框,IMAGE_total
是开放式调查问题的答案。这些日文字符可能难以处理,我深表歉意。
mecab - mecab python提取公司名称
我正在尝试在列中运行数据并使用 MeCab 库仅提取公司名称并将它们列出在新列中。目标列是一个注释列,其中包括员工姓名、公司名称、发票编号等全部或单独取决于交易。下面列出的是我试图仅提取公司名称的代码。请注意以下代码仍在生产中,但只是想发布一些内容。提前为我乱七八糟的编码道歉...
谢谢,
#组织名在日语中是公司名称的意思
mecab - Mecab自动分割大文件时输出奇怪的字符
如何防止Mecab在超过输入缓冲区文件大小而不增加输入缓冲区大小的情况下在EOS前后输入奇怪的字符?
当使用超过输入缓冲区大小的文件运行 mecab 时,它会自动拆分输出。这通常没问题,除了 EOS 之前和之后,还有以下无法识别的字符。
是否有任何设置阻止 mecab 输出这些奇怪的字符?我需要文件拆分以确保正确分组词素。浏览整个文件并手动删除它们并不是最好的选择,尤其是当我在 mecab 输出中有成千上万行(由于文件很多)时。
通过 Homebrew 和 Unidict 安装 mecab