“tm”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

66172 浏览

r - 使用 tm_map(..., tolower) 将文本转换为小写时出错

我尝试使用tm_map. 它给出了以下错误。我怎样才能解决这个问题？

r tm lowercase term-document-matrix

2012-11-30T06:35:41.490

0 投票

1 回答

39391 浏览

c - tm 使用示例

你能举一个使用tm（我不知道如何初始化它struct）的例子，当前日期是用这种格式写的y/m/d吗？

c tm

2012-12-01T11:01:14.823

0 投票

2 回答

5300 浏览

r - 如何编写自定义 removePunctuation() 函数以更好地处理 Unicode 字符？

在 tm text-mining R-package 的源代码中，在文件transform.R中，有这个removePunctuation()函数，目前定义为：

我需要解析和挖掘来自科学会议的一些摘要（从他们的网站以 UTF-8 格式获取）。摘要包含一些需要删除的 unicode 字符，尤其是在单词边界处。有通常的 ASCII 标点字符，还有一些 Unicode 破折号、Unicode 引号、数学符号……

文本中还有URL，其中的标点符号需要保留词内标点符号。tm的内置removePunctuation()功能太激进了。

所以我需要一个自定义removePunctuation()函数来根据我的要求进行删除。

我的自定义 Unicode 函数现在看起来像这样，但它没有按预期工作。我很少使用 R，所以在 R 中完成任务需要一些时间，即使是最简单的任务。

我的功能：

它没有按预期工作。我想，它根本没有做任何事情。标点符号仍在术语文档矩阵中，请参阅：

所以我的问题是：

为什么对我的 function(){} 的调用没有达到预期的效果？如何改进我的功能？
R 的 perl 兼容正则表达式是否支持 Unicode 正则表达式模式类，例如 if \P{ASCII}或支持？\P{PUNCT}我认为它们不是（默认情况下）PCRE: : "只有对各种 Unicode 属性的支持 \p 是不完整的，但最重要的是支持。"

r unicode text-mining tm

2013-01-11T15:26:34.070

0 投票

2 回答

9168 浏览

r - 每项频率 - R TM DocumentTermMatrix

我对 R 很陌生，不能完全理解 DocumentTermMatrixs。我有一个使用 TM 包创建的 DocumentTermMatrix，其中包含术语频率和术语，但我不知道如何访问它们。

理想情况下，我想：

目前我的代码是：

这是 str(dtm) 的输出

谢谢，

-一个

r tm term-document-matrix

2013-01-20T17:03:38.313

0 投票

1 回答

3329 浏览

r - 使用 R -“逆”拼写检查器在字符向量中搜索单词的拼写错误

我正在对一个大型数据库进行文本挖掘，以创建指示变量，这些变量指示观察的评论字段中某些短语的出现。注释由技术人员输入，因此使用的术语始终一致。

但是，在某些情况下，技术人员拼错了一个单词，因此我的 grepl() 函数无法捕捉到该短语（尽管拼写错误）出现在观察中。理想情况下，我希望能够将短语中的每个单词提交给一个函数，该函数将返回该单词的几个常见拼写错误或拼写错误。这样的R函数存在吗？

有了这个，我可以在评论字段中搜索这些短语拼写错误的所有可能组合，并将其输出到另一个数据框。这样，我可以逐个查看每个事件，以确定我感兴趣的现象是否真的由技术人员描述。

我在谷歌上搜索过，但只找到了对 R 的实际拼写检查包的引用。我正在寻找的是一个“反向”拼写检查器。由于我要查找的短语数量相对较少，我实际上可以手动检查拼写错误；我只是认为将这种能力内置到 R 包中以用于未来的文本挖掘工作会很好。

感谢您的时间！

r spell-checking text-mining tm

2013-02-01T21:06:25.973

0 投票

1 回答

19159 浏览

r - R tm removeWords stopwords 不删除停用词

我正在使用 R tm 包，发现几乎没有tm_map删除文本元素的功能对我有用。

例如，“工作”是指，我将运行：

但是当我跑步时

我仍然得到：

...等等，还有一堆其他的停用词。

我没有看到任何错误表明出现问题。有谁知道这是什么，以及如何使停用词删除功能正确，或诊断出我出了什么问题？

更新

之前有一个我没有发现的错误：

是 Weka 正在删除 tm 中的停用词，对吗？所以这可能是我的问题？

更新 2

由此看来，这个错误似乎是无关的。这是关于数据库，而不是关于停用词。

r nlp stop-words tm

2013-02-07T17:42:16.833

0 投票

1 回答

23696 浏览

r - 试图让 tf-idf 加权在 R 中工作

我正在尝试使用 tm 包进行一些非常基本的文本分析并获得一些 tf-idf 分数；我正在运行 OS X（尽管我在 Debian Squeeze 上尝试过，结果相同）；我有一个目录（这是我的工作目录），里面有几个文本文件（第一个包含Ulysses的前三集，第二个包含后三集，如果你必须知道的话）。

R 版本：2.15.1 SessionInfo() 报告这个关于 tm：[1] tm_0.5-8.3

r - R tm 语料库对象的拆分样本

我正在使用 R tm 包，试图将我的语料库拆分为训练集和测试集，并将其编码为元数据以供选择。最简单的方法是什么（假设我试图将样本分成两半）？

以下是我尝试过的一些事情：

我知道当我打字时...

我看到了 ID，但似乎无法访问它们（为了说前半部分属于一组，而第二部分属于另一组）。 rownames(attributes(d)$DMetaData)给了我索引，但这看起来很难看，它们是因素。

现在，在转换为数据框后，说 d 是我的数据集，我只是说：

但是我怎么能轻松地做类似的事情......

...得到如下结果：

不幸的是，meta(d,"ID")不起作用，但meta(d[[1]],"ID") == 1确实如此，但它是多余的。我正在寻找一种访问元 ID 的全向量方式，或者一种更智能的子集化方式并分配给“拆分”元变量。

r tm

2013-02-11T22:44:29.417

0 投票

2 回答

1057 浏览

r - 如何从 R 中的 koRpus 对象中提取内容？

我正在使用 tm 包，并希望使用 R 获取文档的 Flesch-Kincaid 分数。我发现 koRpus 包有很多指标，包括阅读水平，并开始使用它。但是，返回的对象似乎是一个非常复杂的 s4 对象，我不明白如何解析。

因此，我将其应用于我的语料库：

x 是应用于 Ovid 的 flesch.kincaid 的向量。

我怎样才能得到返回值grade=13.62，age=18.62？str(x) 太大了，很难解析，即：

理想情况下，我希望将 FK 分数分配给 tm 中的 meta(d)。

我很高兴学习如何理解这个返回对象并取出它的值，而且，如果有另一种更好、更快的方法来获得 FK 分数，我会全力以赴！

r nlp s4 tm

2013-02-12T15:26:47.627

0 投票

3 回答

2794 浏览

r - 如何在语料库中手动设置文档 ID？

我正在从数据框创建一个 Copus。我将其作为 a 传递，因为VectorSource我只想将一列用作文本源。这项工作发现但是我需要语料库中的文档 ID 来匹配数据框中的文档 ID。文档 ID 存储在原始数据框中的单独列中。

运行此代码会创建一个语料库，但文档 ID 为 1-6。有什么方法可以创建文档 ID 为 1、3、5、7、8、10 的语料库？

r tm

2013-02-13T11:21:03.190

问题标签 [tm]

Reference