问题标签 [mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
99 浏览

url - 哈希集处理以避免在迭代期间陷入循环

我正在从事图像挖掘项目,我使用 Hashset 而不是数组来避免在收集 url 时添加重复的 url,我到达了代码点来迭代包含主要 url 的 Hashset,并在迭代中下载主 URL 的页面并将它们添加到 Hashet,然后继续,在迭代期间我应该排除每个扫描的 url,并且还排除(删除)每个以 jpg 结尾的 url,直到 url 计数的 Hashet 达到 0,问题是我在这个迭代中面临着无休止的循环,在那里我可能会得到 url(我们称之为 X)

1- 我扫描 url X 的页面 2- 获取页面 X 的所有 url(通过应用过滤器) 3- 使用 unioinwith 将 url 添加到 Hashset 4- 删除扫描的 url X

当其中一个 URL Y 被扫描时再次带 X 时,问题就出现了

我应该使用字典和密钥作为“扫描”吗?我会尝试在这里发布结果,抱歉,在我发布问题后我想到了......

我设法为一个 url 解决了它,但它似乎与其他 url 一起发生以生成循环,所以即使在删除链接后如何处理 Hashset 以避免重复,我希望我的观点很清楚。

0 投票
1 回答
340 浏览

r - 使用 RTextTools 中的 create_matrix 在 simple_triplet_matrix(i = i, j = j 中产生错误

以前有人问过这个问题,但是在一个旧线程中,从未得到解决。人们在这个线程的底部遇到了这个问题 -使用 R TM 包查找 2 和 3 个单词的短语 R 基本代码和包是全新安装的。我无法让任何二元组或三元组解决方案起作用——它们都产生了相同的错误,但我想我应该从这里开始。我将给出一个带有输出和版本的简单示例。

0 投票
0 回答
229 浏览

r - 在数据框中按行进行文本挖掘

我有这个数据框:

我想以一种我可以的方式处理 Text 变量 - 例如 - 逐行计算一个单词在其中出现的次数。换句话说,我想得到一个如下的数据框:

然而,我已经这样做了:

尽管如此,这样我只能获得所有列的字数,而不是 ROW BY ROW。有什么建议吗?

0 投票
1 回答
1681 浏览

directed-acyclic-graphs - 以太坊:为什么我一直在创建 DAG 文件?

在阅读 Stack 上的另一个问题后,我了解到 DAG 文件代表有向无环图。

但是,我不明白它是如何使用的,当我输入时ethminer -G,我开始看到Creating DAG. XX% done DAG 16:37:39.331|ethminer Generating DAG file. Progress: XX %. 自达到 100% 以来已经是第三次了,并且在打印后继续重新启动相同的过程:

我确切地说我正在为我的NVIDIA使用带有驱动程序367的Ubuntu 16.04CUDA 8.0

0 投票
6 回答
8471 浏览

python - 从字符串中删除所有标点符号,除非它在数字之间

我有一个包含单词和数字的文本。我将举一个具有代表性的文本示例:

我想将其转换为:

所以删除标点符号(可以是. ,或任何其他string.punctuation),并在连接时在数字和单词之间放置一个空格。但是在我的例子中保持浮动像 2.5。

我使用了以下代码:

结果是:

我快到了,但无法弄清楚最后的和平。

0 投票
1 回答
38 浏览

gpu - 无法正确配置 GPU BIOS

我有 6 个 RX470 的 GPU。它应该是平均每个 25-27 mh/s 但它只有 20 mh/s。总体是 120 而不是 150-170。我认为问题在于 GPU BIOS 配置,但无法弄清楚其他任何事情。有什么建议么?

0 投票
1 回答
89 浏览

python - 如何从熊猫中杂乱无章的字典状数据框中提取分数?

我是 pandas 的新手,我有一个如下所示的数据框:

看起来像字典,但条目没有按列排序。冒号前面的字符串是 id,后面的字符串是分数。我需要一个函数来检索所有行的特定值。结果应该是一个新的数据框:

1) 保留每行的索引(它没有显示在片段中,但它在我的原始数据框中)。

2)创建列,其标题是我指定的 id,单元格中的数据是分数(假设列 9865 应该包含当前在“9865:”之后的分数)

你的帮助真的很棒。谢谢你。

0 投票
1 回答
75 浏览

blockchain - 区块链 PoW 挖掘数据完整性逻辑

参考:https ://www.youtube.com/watch?v=kE51N84hBxU

为了检查块的完整性,将随机数和内容一起散列,然后检查零的数量是否与挖掘该块的“人”的散列的零数量相匹配。

为什么我们不只比较挖掘后的哈希,为什么我们只比较零的数量?我的意思是这对我来说几乎没有意义,因为比较完整的哈希确实提供了更多的安全性,而不是更多的努力。

0 投票
2 回答
431 浏览

python - 使用 Python 进行文本挖掘

我总共有 900 个“.txt”和“.htm”文件。每个文件有 4 个段落。每份文件中都有关于该公司为何被退市的原因。我只需要从所有文件中获取原因。公司暂停的原因通常是在“因为”和“作为”之类的词之后。我如何使用python从所有文档中挖掘原因?我是python新手。任何帮助将不胜感激。

0 投票
3 回答
1404 浏览

blockchain - Geth 专用网络生成以太币的问题

简短的介绍

我在专用网络中连接了三个以太坊节点,并且我正在使用带有 geth 的交互式 Javascript 控制台。

问题是,我找不到在任何帐户上获取以太币的方法。余额始终为 0。

细节

对于所有三个节点,配置和输出都相似,只是它们的地址和帐号不同。

运行前的文件树geth

内容CustomGenesis.json

~/eth/我开始的目录geth中:

...产生以下输出:

交互式 Javascript 控制台在另一个终端中启动:

... 这使:

Etherbase 在所有节点上都设置了miner.setEtherbase(personal.listAccounts[0]). 每个节点只有一个账户。(3个节点,3个账户)

调用admin.nodeInfo给出:

节点之间的连接admin.addPeer(..)使得每个节点在调用时显示两个对等点admin.peers

当我开始挖掘时miner.start(),这是我在交互式 js 控制台中收到的输出:

...并在运行节点的另一个终端中:

之后什么都没有发生,并且在检查时所有帐户的余额仍然为 0 eth.getBalance(eth.accounts[0])

我有哪些选择可以尝试让私有网络上的节点开始挖掘以太币?

为什么以太的预分配不起作用CustomGenesis.json

提供的难度CustomGenesis.json被忽略了吗?admin.nodeInfo显示不同的数字。

欢迎大家提出意见和建议,谢谢!