问题标签 [korean-nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 从R中的字符串中提取以동结尾的单词(可变长度)
我在 R 中有一个数据框,其中一列包含韩语地址。我需要提取其中一个词(一个以동结尾的词),如果它在那里(它可能丢失)并创建一个名为“dong”的新列,它将包含这个词。所以我的数据显示在“地址”列中,所需的输出显示在下面的“dong”列中。
我尝试过使用 grep ,但它并没有完全满足我的需求。
我认为我有 2 个问题:1)我不确定如何编写正确的正则表达式来识别我需要的单词,以及 2)我不确定为什么 grep 返回整个字符串而不是单词。我将不胜感激任何建议。
python - 在 Python 中将 mojibake 转换为韩语
(编辑:现在引用Unbaking mojibake)
源文件:Android 手机 .vcf 联系人文件目标:Windows 7 用户联系人文件(导入的 .vcf)
生成的联系信息:名称字段的韩国 mojibake:'_곗퐫 李쏀__ㅻ━肄섏떎留_'
结果应该只有韩文文本。经过一番研究,我猜测EUC-kr
由于mojibake中的汉字而存在一些编码问题。但是真的不知道...
这是 Python 结果:_°ì¤Ô¤½¤É¤§ ì°½í__¤ë¦¬ì½¤Ô¤µ¤Â¤°¤Ô¤¨¤¤«ë§_
显然这是不正确的。所以还是卡住了...
r - 读取包含韩语的 CSV 时出错
我正在尝试使用以下行读取其中一列包含韩文文本的 CSV 文件
但我收到错误
我可以使用类似的语法阅读中文和日文,但是在阅读韩文时遇到问题有人可以帮我吗?
mecab - 如何将 mecab-ko 作为 AWS Lambda 层?
从如何在 aws lambda 中添加 mecab 库的答案,我可以制作 mecab 库的 lambda 层。然而,mecab-ko 似乎并没有以同样的方式工作。有人可以指导我吗?