我正在尝试使用 Japanese tokenizer 标记一组推文RMeCab
,特别是函数RMeCabDF
(用于数据帧)。
该文档说明了以下用法:
RMeCabDF
描述
RMeCabDF 将数据帧作为第一个参数,并分析第二个参数指定的列。空白数据应替换为 NA。如果将 1 指定为第三个参数,则返回每个语素的基本形式。
用法
RMeCabDF(dataf, coln, mypref, dic = "", mecabrc = "", etc = "")
论据
dataf 数据帧
coln 包含日语句子的列号或名称
mypref 默认为 0,返回文本中出现的相同词素形式。如果指定了 1,则它们的基本形式是相反的。
dic 指定用户字典,ex ishida.dic
mecabrc 未实现(指定 mecab 资源文件)
等 mecab的其他选项
因此,在此之后,我使用以下代码来标记数据框中的列89
号trump_ja
:
trump_ja_tokens <- RMeCabDF(trump_ja, coln = 89)
这导致List of 1
- 但如您所见,数据框有 989 行。
我的其他行去哪儿了?
我必须逐行标记吗?如果是这样,有没有办法自动化这个过程以避免输入 1000 行代码(或使用 Excel 生成 1000 行代码)?