问题标签 [mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
graph - 随机游走如何在图上工作???为什么人们使用它?
我是一名在图挖掘领域工作的博士生。人们在遍历和计算图中节点之间的相似度时,已经在图中使用了随机游走的概念。谁能告诉我随机游走如何在图表上工作?特别是,当它被用来测量图中任意两个节点/顶点时......???等待有效且内容丰富的回复... :roll:
text - 对文本文件进行排名的指标
我在特定域中有一组文本文件。我需要根据一些指标对文件进行排名。
请帮助我提供一些可用于对我的文本文件进行排名的指标(词频、大小、使用频率等)。然后,我想使用文本挖掘技术根据其中一种技术对文件进行排名。
dom - 使用 phantomjs 或其他东西挖掘/抓取/Web 控制台?
我想创建一个应用程序,其行为与另一个 Web 应用程序的行为直接相关。本质上,在 Gmail 中运行的应用程序会根据用户的操作与界面进行动态交互。
我遇到的问题是我想制作一个与该 Web 应用程序交互的应用程序,但它们不提供开放 API。因此,我不能只为我需要的数据调用 api。
当我在 chrome 中打开开发控制台时,我可以看到正在运行的应用程序,以及基于活动运行的调试注释。
有什么方法可以让我使用 PhantomJS 之类的东西来抓取动态活动,以基于另一个应用程序的活动。
“如果控制台在命令控制台中显示“X”,请在此其他应用程序中运行“Z”脚本。”
我显然不是工程师,但想知道这样的事情是否可行。
处理封闭 API 的一种非常 hacky 的方式。我看不到您的代码或使用它,但如果我可以看到它工作,我可以实时记录并在另一个应用程序中与之交互似乎不合逻辑吗?
url - 从 wiki 文本中的链接确定确切的 URL
在维基百科的文章文本中,可能会提到这样的链接:[Category:ABC],但是确切的 wiki url 将具有像Category:A_B_C这样的后缀 ,我可以从中获取有关 wiki 用于从中获取 url 的所有这些规则的信息文本中的链接?(例如,将空格转换为下划线、首字母大写、处理非 ascii 字符等)
python - python和redis,语法不清楚
这是挖掘社交网络书的代码副本。
我是这个领域的新手,也是 Redis 的新手。$
我想了解在这种情况下是什么意思。还有print with %s
,是什么意思?
这是下面的源代码(来自:https ://github.com/ptwobrussell/Mining-the-Social-Web ):
twitter - How to build a keyword-related graph from an initial input keyword?
As a beginner text-miner, I really want to ask for advices/guidelines on graph mining, based on a real need of me: build a keyword-related graph from an initial input keyword.
I know the topic is relatively large, so I want to do it for Twitter first: I have harvested a tweet corpus of the keywords "survey" and "market". I want to mine from that corpus to build a graph of keywords related to "survey" or "market".
I have tried using NodeXL and NLTK but I couldn't do what I want.
web-scraping - 挖掘众包数据的合法性
我有一个项目构想,我想在另一个网站上挖掘通过众包收到的公开可用数据。这样我就有了自己项目的初始数据。重申一下,我想编写一个机器人来抓取显示在另一个网站上的数据并将其用于我自己的网站。有谁知道这种事情的合法性吗?原始网站是否拥有人群提供给它的数据?即使是这样,我可以使用它吗?
tree - 如何找到用于构建决策树的连续值范围
我正在构建一个使用具有连续值(双精度值)的字段的决策树。我应该如何创建范围节点来构建树(找到最佳范围值)
bitcoin - poclbm 未向 deepbit 或 slush 报告哈希值
我在我的系统上运行 poclbm 但由于某种原因 deepbit 和 slush 都没有“看到”正在执行的工作。我的系统报告每秒大约执行 200 兆次。我尝试使用相同的设置使用我的 cpu 进行挖掘,然后 deepbit 和 slush 都认识到正在执行工作。
这些是我从各自的挖矿硬件中得到的错误(每分钟左右):
poclbm 错误: pit.deepbit.net:8332 22/02/2013 21:50:59,验证失败,检查硬件!(0:0: 柏树,d47b7ba0)
cgminer 错误: [2013-02-22 22:18:51] GPU0:无效随机数 - 硬件错误
我正在使用带有 ATI 5800 系列显卡的 12.10 版本 poclbm 的 Ubuntu 12.10 (Quantal Quetzal)。据我所知,视频驱动程序已安装并可以正常工作。当我运行“aticonfig --odgc --adapter=all”时,gpu 似乎确实与 poclbm 一起使用(大约 70% 左右的利用率)。
python - Stratum/Python“未找到服务方法”
我们正在尝试为 minelitecoin.com 建立一个带有 Stratum 协议的莱特币挖矿服务器...
我能够设置服务器和挖掘代理,它们已配置并正在运行,但是当尝试将矿工连接到服务器时(即使使用地层挖掘代理),我们会收到:
我们已经按照包内 README 提供的所有克隆/安装说明进行操作,并花费数小时搜索网络并挖掘数千行 Python 代码以尝试找出发生了什么。
在protocol.py中的这个函数中发生了错误:
特别是在这一行:
此处提供了代理服务的完整调试输出:
服务器端的实时输出在这里:
来自服务器的记录输出(看起来描述性要差得多)在这里:
我们已经把头撞在墙上几天了,如果有人能帮忙解决这个问题,将不胜感激!!!