问题标签 [mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 这些神秘人物是什么
这可能不是一个编程问题,但我在 Google 上找不到任何答案。
我目前有一些文本挖掘任务并进行数据清理。我经常遇到一些不可读的神秘字符。
这些字符是:β
等%
。
所有这些都以特定的模式开始,因此我相信它们代表了一些 Excel 不可读的编码。
有没有办法转换它们?我需要知道这些字符的确切含义才能知道是否应该删除它们。
regex - 如何从R中的列中的列表中删除单词
我在表格中有一列标题,并且想删除单独表格/向量中列出的所有单词。
例如,标题表:
“Lorem ipsum dolor”
“sit amet, consectetur adipiscing”
“elit, sed do eiusmod tempor”
“incidudunt ut labore”
“et dolore magna aliqua”。
待删除:c("Lorem", "dolore", "elit")
输出:
“ipsum dolor”
“sit amet, consectetur adipiscing”
“, sed do eiusmod tempor”
“incidudunt ut labore”
“et magna aliqua”。
列入黑名单的单词可能会出现多次。
tm 包具有此功能,但在应用于 wordcloud 时。我需要的是保持列完好无损,而不是将所有行连接成一个字符串。当给定一组值作为模式时,正则表达式函数 (gsub()) 似乎不起作用。Oracle SQL 解决方案也很有趣。
token - 创建以太坊代币作为挖矿奖励
我已经成功地使用 Frontier 网站上的“操作方法”创建了一个注册的以太坊“令牌”。我打算继续签订众包合同,为能够在世界上做一些好事的筹款活动筹集资金,但稍后会详细介绍。代币创建文本包含改进我的新代币功能的建议:例如,您可以通过创建一个交易来奖励发现当前区块的人来奖励以太坊矿工:
只需将此代码粘贴到我的合同中自然会产生错误消息。
问: 我需要调整、输入、更改什么,才能用我的一种代币奖励未成年人?对于每一个开采的新区块。谢谢你。
r - R中对多个文件的文本挖掘——挖掘文件中的相似词
我最近学习了如何选择单个 CSV 文件并使用 R 中的文本挖掘在文件中查找最常用的单词。我现在想做的是让 R 搜索多个 CSV 文件(在我的示例中,我有 5 个) 并挑选出出现在每个 CSV 文件中的相似词。仅供参考 - 在我的 5 个文件中,我人为地插入了“象形文字”这个词,我希望我的代码能够将它作为匹配词拉出所有 5 个文件,以及与所有 5 个文件匹配的任何其他词文件。
我已经将代码设置如下,但我真的很想知道如何继续。任何人都可以帮忙吗?
提前谢谢了,
保罗
PS 作为扩展(如果以上内容对你们中的某些人来说太容易了!) - 有没有办法可以提取包含单词的 5 个 CSV 文件的数量?继续上面的例子,如果单词“Egypt”只包含在 5 个 CSV 文件中的 4 个中,R 程序是否可以提取每个单词并为所有单词说“hieroglypics - 5”、“Egypt - 4”等全部 5 个文件?
r - 使用术语列表记录术语矩阵
我正在尝试使用预先确定的术语构建文档术语矩阵。语料库在变量 cname 中标识,具有预标识术语的文件被读入 terms 变量,然后转换为列表。当我运行下面的代码时,我得到一个空的 DTM。我在下面使用的代码。关于我做错了什么有什么想法吗?谢谢!!!
汤姆
r - 如何将情感词典导入 R 以进行 Kickstarter 的数据抓取
我正在尝试使用 R 创建一个模型来测量文本中的情感。基本上,使用带有情感词的词典,我只想从大量 URL 中提取“p”(段落)。我正在寻找每个 URL 的每个情感的字数,基于使用词典的预定义情感指示词的存在。词典链接
我使用的数据是 JSON 格式,来自 Webrobots:Dataset Link(最新集)。
任何帮助将不胜感激,因为我真的很想开始做这件事!即使只是知道如何将其导入 R 和计算单词的代码也会有很大帮助。
亲切的问候,一个绝望的R文盲女孩。
更新:数据文件被导入到 R 中。但是,我找不到编写代码来测试是否存在词典指示的单词以针对数据运行的方法。我试图创建 6 个新变量,其中包含六种基本情绪(快乐、悲伤、愤怒、惊讶、恐惧、厌恶)的每个活动的计数,以显示这些情绪存在的字数
我已经在仔细查看文件中指出了段落“p”部分。我只需要对其内容进行分类。
neural-network - 多神经网络或带输出层的神经网络
如果输出具有相关性,那么输出层或多个神经网络之间哪个更好?比如疾病检测。(糖尿病和肥胖之间的相关性很高。但肥胖和眼病的相关性很低)
r - 朴素贝叶斯模型不做预测(特异性为 0);R中的情绪分析
我一直在尝试分析一个数据集(大约 7000 个条目)以进行 Twitter 情绪分析。我一直在尝试使用朴素贝叶斯模型来预测推文是否为负面。混淆矩阵没有预测,只有基本比率,这意味着模型没有做出任何预测。我怎样才能让它做出预测?也许 removeSparseTerms 参数需要更改。如果贝叶斯无法预测任何东西,那么对于这个数据集,还有哪些模型可以很好地使用?
json - Twitter TypeError:“int”对象没有属性“__getitem__”
我正在尝试遵循有关 twitter 数据挖掘的教程,模拟的步骤如下:
接着:
结果是:
有人可以帮我找出我的错误我实际上是新手。