问题标签 [tm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - tm 中 stemCompletion 的最大合理尺寸?
我有 26 个纯文本文件的语料库,每个文件在 12 - 148kb 之间,总共 1.2Mb。我在 Windows 7 笔记本电脑上使用 R。
我做了所有正常的清理工作(停用词、自定义停用词、小写字母、数字)并想做词干补全。我使用原始语料库作为字典,如示例中所示。我尝试了几个简单的向量,以确保它完全可以工作(大约 5 个术语),而且效果非常好。
它从昨天下午 4 点开始工作!在诊断下的 R Studio 中,请求日志显示具有不同请求编号的新请求。任务管理器使用一些内存显示它,但不是一个疯狂的数量。我不想阻止它,因为如果它快到了怎么办?关于如何检查进度的任何其他想法 - 不幸的是,它是一个不稳定的语料库?关于需要多长时间的想法?我考虑过使用 dtm 名称向量作为字典,在最频繁(或高 tf-idf)处切断,但我不愿意杀死这个过程。
这是一台普通的 Windows 7 笔记本电脑,运行着许多其他的东西。
这个语料库对于 stemCompletion 来说是不是太大了?除了迁移到 Python 之外,是否有更好的方法来进行 stemCompletion 或词根化副词干 - 我的网络搜索没有产生任何答案。
r - R:如何将会话式 Questn 答案模式转换为数据框?
我已阅读以下文本文件并遇到以下问题,
文件名:QnA.txt
问:你叫什么名字?
答案:XXX
问:请告诉我你的地址?
答案:XXX, xxxx-ssss, 00000
问题:告诉我其他细节
答案:当然,......
我已经在语料库中阅读了这个文本文件,现在我必须在该文件中进行一些文本挖掘,为此我必须将每个语料库文件创建到一个数据帧中,例如:
我怎样才能阅读每个语料库并转换成我想要的数据框......?
更多理解说明:
df$Question会显示所有问题,相应地df$Answer会显示对应问题的答案
请提出解决此问题的适当方法,稍后我将重点关注速度...
r - 通过包“tm”在R中导入pdf
我知道通过包“tm”在“R”工作区中获取pdf的实际示例,但无法理解代码是如何工作的,因此无法导入所需的pdf。以下代码中导入的 pdf 是“tm”小插图。
代码是
“tm”是小插图。虽然我试图带来的 pdf 是“不同的”。那么如何更改上面的代码以将我的pdf带入工作区。minn是我要导入的 pdf 文档。
喜欢
r - 计算 R 中每一行文本数据的 ngram
我有以下格式的数据列:
文本
我想通过可能使用tau
包的textcnt()
函数来计算这个数据集中每一行的 3-gram。但是,当我尝试它时,它给了我一个带有整个列的 ngram 的数字向量。如何将此函数分别应用于数据中的每个观察值?
r - R中的readPDF(tm包)
我尝试在 R 中阅读一些在线 pdf 文档。我使用了readRDF
函数。我的脚本是这样的
R 显示运行命令状态为 309 的消息。我尝试了不同的pdftotext
选项。但是,它是相同的消息。并且创建的文本文件没有内容。
任何人都可以阅读这个pdf
r - 尝试使用 tm 包中的 readPDF 读取 PDF 时出错
(Windows 7 / R 版本 3.0.1)
下面的命令和产生的错误:
我该如何解决这个问题?
编辑我
(如 Ben 所建议并在此处描述)
我下载了Xpdf,将 32 位版本复制到
C:\Program Files (x86)\xpdf32
,将 64 位版本复制到
C:\Program Files\xpdf64
环境变量pdfinfo
和pdftotext
指的是各自的可执行文件 32 位(用 R 32 位测试)或 64 位(用 R 64 位测试)
编辑二
一个非常令人困惑的观察是,从一个新的会话(tm 未加载)开始,仅最后一个命令就会产生错误:
我根本不明白这一点,因为函数变量尚未由 tm.readPDF 定义。下面你会发现函数 pdf 指的是“自然”以及 tm.readPDF 返回的内容:
显然没有区别 - 那么为什么要使用 readPDF 呢?
编辑三
pdf 文件位于此处:C:\Users\Raffael\Documents
编辑四
第一条指令pdf()
是调用tm:::pdfinfo()
- 并且错误是在前几行中引起的:
显然tempfile()
根本不创建文件。
该文件夹C:\Users\Raffael\AppData\Local\Temp\RtmpquRYX6
存在并包含一些文件,但没有一个名为pdfinfo8d437bd65d9
.
r - 如何在 tm 字典中实现邻近规则来计算单词?
客观的
我想计算“爱”这个词在文件中出现的次数,但前提是它前面没有“不”这个词,例如“我喜欢电影”将计为一次出现,而“我不喜欢电影” “不会算作出场。
问题
如何继续使用 tm 包?
代码
下面是一些我想修改以执行上述操作的自包含代码。
更多信息
我正在尝试从商业包 WordStat 中重现字典规则功能。它能够利用字典规则,即
“由单词、单词模式、短语以及邻近规则(例如 NEAR、AFTER、BEFORE)组成的分层内容分析词典或分类法,用于实现概念的精确测量”
我还注意到这个有趣的 SO 问题:基于规则的开源模式匹配/信息提取框架?
更新 1:根据@Ben 的评论和帖子,我得到了这个(虽然最后略有不同,但他的回答强烈地启发了他,所以完全归功于他)
然后我想我需要做一些行子设置和行减法,这会导致类似
我不知道如何使用 data.table 获取最后一行,但这种方法类似于 WordStats 'NOT NEAR' 字典函数,例如在这种情况下,如果“love”这个词没有出现在 1 个单词中,则只计算它直接在“不”这个词之前或之后。
如果我们要做一个 m-gram 标记器,那么就像说我们只计算“爱”这个词,如果它没有出现在“不”这个词的任何一侧的 (m-1) 个词中。
其他方法是最受欢迎的!
r - 从 CSV 文件中挖掘 R 文本文档(每个文档一行)
我正在尝试使用 R 中的 tm 包,并有一个客户反馈的 CSV 文件,每一行都是不同的反馈实例。我想将此反馈的所有内容导入语料库,但我希望每一行都是语料库中的不同文档,以便我可以比较 DocTerms 矩阵中的反馈。我的数据集中有超过 10,000 行。
最初我做了以下事情:
这将创建一个包含 1 个文档和 >10,000 行的语料库,我想要 >10,000 个文档,每个文档有 1 行。
我想我可以在一个文件夹中拥有 10,000 多个单独的 CSV 或 TXT 文档并从中创建一个语料库……但我认为有一个比这更简单的答案,将每一行作为单独的文档读取。
r - 将定性用户数据与文本挖掘结果配对
我有一对 CSV 格式的客户反馈数据,表示客户是否推荐了他们收到的服务(1 或 0)“rec”和相关的评论“comment”。我正在尝试比较推荐该服务的人和不推荐该服务的人之间的客户反馈。
我已经使用 tm 包来简单地读取 CSV 中只有注释的所有行,并对所有注释进行一些后续文本挖掘,这很有效:
现在,我试图通过包含“rec”列来比较那些推荐和不推荐的客户的评论,但我无法从单个列 CSV 创建语料库 - 我尝试了以下操作:
但我得到一个错误说
在创建主题模型后,我还尝试将“rec”代码绑定到评论,但某些评论最终会被“主题”函数过滤,因此“rec”列比生成的主题模型中的文档数长。
如果这是我可以简单地用 tm 包做的事情?我根本没有使用过 qdap 包,但这在这里更合适吗?
r - tm readPDF:文件错误(con,“r”):无法打开连接
我已经尝试了tm::readPDF 文档中推荐的示例代码:
但我收到以下错误(在调用返回的函数后发生readPDF
):
请注意,我已将所有 xpdf 二进制文件安装到当前目录(但这由if
条件处理)。
编辑:发现这是一个错误。什么是最简单的解决方法?