问题标签 [tm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
66172 浏览

r - 使用 tm_map(..., tolower) 将文本转换为小写时出错

我尝试使用tm_map. 它给出了以下错误。我怎样才能解决这个问题?

0 投票
1 回答
39391 浏览

c - tm 使用示例

你能举一个使用tm(我不知道如何初始化它struct)的例子,当前日期是用这种格式写的y/m/d吗?

0 投票
2 回答
5300 浏览

r - 如何编写自定义 removePunctuation() 函数以更好地处理 Unicode 字符?

在 tm text-mining R-package 的源代码中,在文件transform.R中,有这个removePunctuation()函数,目前定义为:

我需要解析和挖掘来自科学会议的一些摘要(从他们的网站以 UTF-8 格式获取)。摘要包含一些需要删除的 unicode 字符,尤其是在单词边界处。有通常的 ASCII 标点字符,还有一些 Unicode 破折号、Unicode 引号、数学符号……

文本中还有URL,其中的标点符号需要保留词内标点符号。tm的内置removePunctuation()功能太激进了。

所以我需要一个自定义removePunctuation()函数来根据我的要求进行删除。

我的自定义 Unicode 函数现在看起来像这样,但它没有按预期工作。我很少使用 R,所以在 R 中完成任务需要一些时间,即使是最简单的任务。

我的功能:

它没有按预期工作。我想,它根本没有做任何事情。标点符号仍在术语文档矩阵中,请参阅:

所以我的问题是:

  1. 为什么对我的 function(){} 的调用没有达到预期的效果?如何改进我的功能?
  2. R 的 perl 兼容正则表达式是否支持 Unicode 正则表达式模式类,例如 if \P{ASCII}或支持?\P{PUNCT}我认为它们不是(默认情况下)PCRE: : "只有对各种 Unicode 属性的支持 \p 是不完整的,但最重要的是支持。"
0 投票
2 回答
9168 浏览

r - 每项频率 - R TM DocumentTermMatrix

我对 R 很陌生,不能完全理解 DocumentTermMatrixs。我有一个使用 TM 包创建的 DocumentTermMatrix,其中包含术语频率和术语,但我不知道如何访问它们。

理想情况下,我想:

目前我的代码是:

这是 str(dtm) 的输出

谢谢,

-一个

0 投票
1 回答
3329 浏览

r - 使用 R -“逆”拼写检查器在字符向量中搜索单词的拼写错误

我正在对一个大型数据库进行文本挖掘,以创建指示变量,这些变量指示观察的评论字段中某些短语的出现。注释由技术人员输入,因此使用的术语始终一致。

但是,在某些情况下,技术人员拼错了一个单词,因此我的 grepl() 函数无法捕捉到该短语(尽管拼写错误)出现在观察中。理想情况下,我希望能够将短语中的每个单词提交给一个函数,该函数将返回该单词的几个常见拼写错误或拼写错误。这样的R函数存在吗?

有了这个,我可以在评论字段中搜索这些短语拼写错误的所有可能组合,并将其输出到另一个数据框。这样,我可以逐个查看每个事件,以确定我感兴趣的现象是否真的由技术人员描述。

我在谷歌上搜索过,但只找到了对 R 的实际拼写检查包的引用。我正在寻找的是一个“反向”拼写检查器。由于我要查找的短语数量相对较少,我实际上可以手动检查拼写错误;我只是认为将这种能力内置到 R 包中以用于未来的文本挖掘工作会很好。

感谢您的时间!

0 投票
1 回答
19159 浏览

r - R tm removeWords stopwords 不删除停用词

我正在使用 R tm 包,发现几乎没有tm_map删除文本元素的功能对我有用。

例如,“工作”是指,我将运行:

但是当我跑步时

我仍然得到:

...等等,还有一堆其他的停用词。

我没有看到任何错误表明出现问题。有谁知道这是什么,以及如何使停用词删除功能正确,或诊断出我出了什么问题?

更新

之前有一个我没有发现的错误:

是 Weka 正在删除 tm 中的停用词,对吗?所以这可能是我的问题?

更新 2

由此看来,这个错误似乎是无关的。这是关于数据库,而不是关于停用词。

0 投票
1 回答
23696 浏览

r - 试图让 tf-idf 加权在 R 中工作

我正在尝试使用 tm 包进行一些非常基本的文本分析并获得一些 tf-idf 分数;我正在运行 OS X(尽管我在 Debian Squeeze 上尝试过,结果相同);我有一个目录(这是我的工作目录),里面有几个文本文件(第一个包含Ulysses的前三集,第二个包含后三集,如果你必须知道的话)。

R 版本:2.15.1 SessionInfo() 报告这个关于 tm:[1] tm_0.5-8.3

相关代码:

您会注意到,加权似乎仍然是默认词频 (tf),而不是我想要的加权 tf-idf 分数。

如果我遗漏了一些明显的东西,我深表歉意,但根据我读过的文档,这应该可行。毫无疑问,错误不在于星星......

0 投票
2 回答
5155 浏览

r - R tm 语料库对象的拆分样本

我正在使用 R tm 包,试图将我的语料库拆分为训练集和测试集,并将其编码为元数据以供选择。最简单的方法是什么(假设我试图将样本分成两半)?

以下是我尝试过的一些事情:

  1. 我知道当我打字时...

我看到了 ID,但似乎无法访问它们(为了说前半部分属于一组,而第二部分属于另一组)。 rownames(attributes(d)$DMetaData)给了我索引,但这看起来很难看,它们是因素。

  1. 现在,在转换为数据框后,说 d 是我的数据集,我只是说:

但是我怎么能轻松地做类似的事情......

...得到如下结果:

不幸的是,meta(d,"ID")不起作用,但meta(d[[1]],"ID") == 1确实如此,但它是多余的。我正在寻找一种访问元 ID 的全向量方式,或者一种更智能的子集化方式并分配给“拆分”元变量。

0 投票
2 回答
1057 浏览

r - 如何从 R 中的 koRpus 对象中提取内容?

我正在使用 tm 包,并希望使用 R 获取文档的 Flesch-Kincaid 分数。我发现 koRpus 包有很多指标,包括阅读水平,并开始使用它。但是,返回的对象似乎是一个非常复杂的 s4 对象,我不明白如何解析。

因此,我将其应用于我的语料库:

x 是应用于 Ovid 的 flesch.kincaid 的向量。

我怎样才能得到返回值grade=13.62,age=18.62?str(x) 太大了,很难解析,即:

理想情况下,我希望将 FK 分数分配给 tm 中的 meta(d)。

我很高兴学习如何理解这个返回对象并取出它的值,而且,如果有另一种更好、更快的方法来获得 FK 分数,我会全力以赴!

0 投票
3 回答
2794 浏览

r - 如何在语料库中手动设置文档 ID?

我正在从数据框创建一个 Copus。我将其作为 a 传递,因为VectorSource我只想将一列用作文本源。这项工作发现但是我需要语料库中的文档 ID 来匹配数据框中的文档 ID。文档 ID 存储在原始数据框中的单独列中。

运行此代码会创建一个语料库,但文档 ID 为 1-6。有什么方法可以创建文档 ID 为 1、3、5、7、8、10 的语料库?