我正在使用一种算法来对文本向量进行词形还原。输出是一个 .txt 文件,存储方式如下图所示。
原始单词列在第一列,而各种引理列在第二列,然后是一些语法分类。我想将其读入 R,但不知道如何执行此操作。我尝试了各种形式的分隔符,但似乎都不起作用。
理想情况下,我希望 R 中的数据框如下所示,其中我只读取每个引理的第一次出现:
也许最好的选择可能是读取数据,只保留第一次出现(即 da da adv),然后对列执行类似文本的操作,只保留前两列。
词形还原算法的输出:
"<da>"
"da" adv
"da" sbu
"da" subst fork
"<dette>"
"dette" det dem nøyt ent
"dette" pron nøyt ent pers 3
"dette" verb inf
"<er>"
"være" verb pres <aux1/perf_part>
"<den>"
"den" det dem fem ent
"den" det dem mask ent
"den" pron mask fem ent pers 3
想要的结构:
da da
dette dette
er være
den den