问题标签 [mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 TM 清理 CSV 文件后如何保留表结构?
我需要一些关于 TM 的帮助来完成一项任务。我有一个 csv 文件,其中有约 300 行和 42 个变量,其中一些变量具有 NA 值。在将数据加载到 NLP 应用程序之前,我想使用 TM 清理此文件。具体来说,我想删除停用词、数字和标点符号。可能不需要词干。最后五列主要是需要清理的列。重要的是,NLP 应用程序允许以表格形式输入,这就是我希望输入结构化的方式。
理想情况下,我想使用 TM 将数据帧转换为语料库,执行清理,然后将清理后的文本数据返回到 csv 文件的结构中,以用作 NLP 应用程序的输入。
我正在测试我使用较小 csv 文件中的文本数据执行此任务的能力。它是 7 行乘 42 个变量。
使用 RStudio,我完成了以下操作
Tiz.corpus <- 语料库(DataframeSource(Tiz))
inspect(Tiz.corpus) 包含 7 个文本文档的语料库
元数据由 2 个标签值对和一个数据框组成 可用标签为:create_date creator 数据框中的可用变量为:MetaID
……
在这一点上,我做了以下......
到目前为止,一切都很好。然后我试了...
我得到的是以下7个文件,内容如下......
我不确定此时该怎么做才能恢复我的文本数据并将其保存在原始 csv 文件的结构中。
TM 是不是适合这项工作的工具?
何塞
pdf - 如何通过 R 将目录中的所有 pdf 转换为 txt 格式?
我正在尝试将位于我的计算机目录中的 PDF 文件列表转换为 txt 格式,以便 R 可以读取它并开始文本挖掘。你知道这段代码有什么问题吗?
bitcoin - Scrypt 算法输出与预期不匹配
我试图了解 scrypt 算法输出。
在https://litecoin.info/Block_hashing_algorithm上,作者获得了 scrypt 加密结果headerString
:
01000000ae178934851bfa0e83ccb6a3fc4bfddff3641e104b6c4680c31509074e699be2bd672d8 d2199ef37a59678f92443083e3b85edef8b45c71759371f823bab59a97126614f44d5001d45920180
[小端序]
至
000000003b4ba52ab765631e20a04b88cd27f0b66d3509fb2da7781fae6d7901
. [大端]
我正在尝试复制它,但我无法重现该结果。我正在使用一个实现,它在本文结尾处为测试向量提供正确的输出:http ://www.tarsnap.com/scrypt/scrypt.pdf但是当headerString
使用正确的 N 设置运行它时, r,p(1024,1,1) 我得到结果
c17fcd0c6d698828112ade740d4e8ad76705764da3abfc49ff3bb1863cd16472
. [大端]
我已经尝试了相同的结果,这些实现具有相同的结果:
我在 scrypt 调用之后我只是在需要时将字节数组解析为十六进制字符串
我在这里错过了什么吗?我只是不明白为什么当我根据有关它的论文验证我的 scrypt 实现时,我没有得到相同的结果。
我真的需要帮助解决这个问题!如果我没有提供足够的信息,请询问并尽我所能清除事情。
c++ - 在 Windows 上编译 CGMINER (BITCOIN) 失败
我正在尝试使用 MinGW32 在我的计算机(Windows 7)上编译 CGminer。
我已经完成了 cgminer 附带的所有说明,但是我遇到了一个大问题。当按照下面的说明进行操作时,我得到了下面抛出的错误......有什么想法吗?
挖矿shell错误 sajadabdul@XKMS-060 ~ $ adl.sh sh: adl.sh: command not found
sajadabdul@XKMS-060 ~ $ autoreconf -fvi sh: autoreconf: 找不到命令
php - 虚拟主机不支持 cron 作业。如何远程运行我的抓取脚本来挖掘数据,然后将其发送到主机的 mysql 数据库?
我目前正在使用 Yahoo 虚拟主机。我发现雅虎不支持 cron 作业。我想做的是运行我的脚本并将它挖掘的数据输入雅虎的 mysql 数据库。该脚本是用 PHP 编写的,需要几个小时才能完成,我希望它不断运行以保持我的信息更新。是否可以在我的本地环境中运行脚本并以某种方式将该信息发送到雅虎的 mysql 服务器?是否有免费的在线服务可以为我运行我的脚本并发送数据?
r - 使用 R 提取 Google 搜索 URL,并从每个 URL 中提取文本
我需要使用 R 从每个 URL 中提取 Google 搜索 URL 和提取文本。
目标是对从 Google 搜索中出现的每个网站进行分类。
如果有人知道怎么做,请帮忙。
api - 使用 Linkedin api 挖掘 Linkedin 数据
我是linkedin api的新手,不确定我打算做的事情是否有可能。我想做的是,收集在谷歌工作的人的数据。所以我输入了一个搜索查询“谷歌”,无论我找到什么员工,我都希望他们的学校就读,最高学位和公司职位。我还想找到,对于给定的员工,他有多少属于同一公司/学校的人脉。
根据我收集的数据,我计划进行一些聚类以查找组和连通性。
是否可以使用他们提供的api?或者我需要一些VIP会员资格吗?我目前正在查看 python api,但其他人也很好。
text - 用于过滤搜索的文本挖掘
我正在用java开发问答系统,我手动创建了模板,这些模板将与用户提出的问题相匹配。问题是预处理后我有关键字列表,这些关键字我想与存储模板中的关键字匹配以过滤搜索。有什么算法吗?问题。java的特点是什么?关键字特征 java 提取包含关键字特征的模板和 java。
xpath - Rapidminer XPath 提取论坛帖子文本
我是 repidminer 的新手,对于一个学术项目,我正在尝试从论坛帖子中提取文本信息,例如http://www.tripadvisor.com/ShowTopic-g29220-i86-k1487815-Alamo-Maui_Hawaii.html
我已经尝试了很多并想出了 XPath 查询: //div[@class='postBody']/p[not(*)][text()]
这在谷歌文档中运行良好,但在 rapidminer 中却不行。
编辑:对不起,但您的建议查询不会在 rapidminer 中起作用。看我的rapidminer进程:
还有其他想法吗?
macos - OSX 中的在线 ASM 寻址
我在 osx 上编译这个问题
致命错误:后端错误:64 位模式不支持 32 位绝对寻址
通过 inline-ASM 中的这行代码:
OSX 不允许我定义绝对寻址,我需要将其转换为可重定位寻址。你可以帮帮我吗?我不知道怎么......我不太明白这条线。(尝试在 OSX 上移植软件)