问题标签 [data-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
104 浏览

aop - 使用 AOP 进行数据挖掘程序调用栈的可行性

我正在阅读 IEEE 计算机杂志上关于在应用程序中使用数据挖掘的文章。

让我感兴趣的部分是我们可以拥有可以监控程序执行流程的软件,并将数据放入数据库中,我们可以在其中进行一些数据挖掘。

然后,数据挖掘工具可以使用这些数据来查找信息,例如是否存在可能会导致更改 API 的某些模式被调用,并且理想情况下,它还可能能够确定错误,因为如果您必须按某种顺序调用函数,它可以帮助检测到这一点。

可能还有其他用途,但这将是一个开始。

那么,这样的工具有用吗?

我认为 AOP 可能是在动态应用程序上真正做到这一点的唯一方法,因为您可以跟踪每个调用的流程并保存堆栈,并可能收集一些其他信息,例如参数。

不幸的是,软件工程师往往不是数据挖掘专家,而从事数据挖掘的人可能不是编写复杂应用程序的专家。

对我来说,有趣的地方是开始分析分布式应用程序或使用云计算的应用程序,但这可能非常复杂。

第二个问题,这类问题应该是社区维基吗?

0 投票
6 回答
157 浏览

data-mining - 如何预测函数名称是否遵循约定

假设您有一个包含 10,000 个函数名称的存储库,并且可能在 C/C#/C++ 中的代码语料库中使用它们的频率。(它们通常有不同的约定)

一些样本可能是:

现在给定一个函数名称,我们如何预测该名称是否符合 Human Generated Name 的约定

笔记:

  1. 显然,所有候选名称都是有效名称
  2. 生成的名称可以包含任意字符,将被视为错误
  3. 信箱可能会出现乱码

部分候选人:

欢迎任何关于技术软件的指点

0 投票
1 回答
1684 浏览

sql-server - Difference between analysis services and business intelligence development studio?

As you might have guessed from the title, I'm really new to analysis services. I've spent the last 5 hours (crazy!) just trying to figure out what is the difference between the analysis services avail. through SSMS and business intelligence development studio avail. through visual studio?

Thanks

0 投票
4 回答
324 浏览

business-intelligence - 微软商业智能。我正在尝试做的事情可能吗?

我负责分析我公司网站的日志表的任务。此表包含给定会话的整个网站的用户点击路径。我的公司希望根据用户的“点击路径”了解/发现趋势。在此过程中,根据年龄/地理位置等确定采用特定“点击路径”的用户组。

从标题可以看出,我对 BI 及其功能完全陌生,所以我想知道:

  1. 我们的目标可以实现吗?
  2. 我该怎么做呢?

我目前正在在线阅读书籍以及我找到的其他电子书。所有迹象似乎都表明这可以通过序列聚类实现。尽管我目前还不清楚所涉及的确切实施和调整。因此,如果有人在这样的事业中有第一手经验,如果你能在这里分享,我会很棒。

干杯!

0 投票
4 回答
17679 浏览

matlab - 在 MATLAB 中将数据拆分为训练/测试数据集?

经过一些研究,我在 MATLAB 中发现了两个函数来完成这项任务:

现在,我之前使用过cvpartition创建 n 折交叉验证子集,以及来自统计工具箱的Dataset/类。Nominal所以我只是想知道两者之间有什么区别以及各自的优缺点?

0 投票
3 回答
6290 浏览

.net - 有哪些技术/工具可用于发现文本块中的常用短语?

假设我有 100000 个电子邮件正文,其中 2000 个包含一个随意的常见字符串,例如“the quick brown fox jumps over the lazy dog”或“lorem ipsum dolor sit amet”。我可以/应该使用什么技术来“挖掘”这些短语?我对挖掘单个单词或短语不感兴趣。我还需要过滤掉我已经知道所有邮件中出现的短语。

例子:

在此示例中,我希望 DiscoverPhrases 函数返回“lorem ipsum dolor sit amet”和“祝你有美好的一天”。如果函数还返回较短的“噪音”短语,这并不重要,但如果可能的话,最好在此过程中消除这些短语。

编辑:我忘记在示例中包含 mailbody3 。

0 投票
2 回答
1370 浏览

email - 已发送消息信息的 Postfix API/查找表

目前,解析 Postfix 日志文件以确定是否已发送消息似乎很常见。是否有用于 Postfix 的 API 或其中的查找表以比解析(相当长的)日志文件更快的方式生成此信息?

0 投票
2 回答
5041 浏览

python - python中的开源数据挖掘/文本分析工具

我有一个充满各种产品评论的数据库。我的任务是执行各种计算并使用聚合数据“创建”另一个“数据库/xml 导出”。我正在考虑用python编写命令行程序来做到这一点。但我知道以前有人做过,而且我知道有一些开源 python 解决方案或类似的解决方案可能会提供更多有趣的“聚合数据”,然后我可能会想到。

问题是除了从命令行进行基本数据操作之外,我对这个领域知之甚少,也不知道我应该使用什么术语来搜索这个东西。我真的不是在寻找一些科学/可视化的东西(并不是说我不介意该工具是否提供),一些简单的开始并逐渐看到/开发我需要的东西。

我唯一的要求是“最终聚合数据”在数据库中或导出为 XML 文件而不是专有内容。它比我的 python 脚本有点健壮,因为我必须处理 4 台机器上的“大量”数据。

任何提示我应该从哪里开始我的研究?

谢谢。

0 投票
1 回答
144 浏览

data-mining - 如何从基于社交的开放网络中提取信息?

如何从基于开放社交的网络(如 orkut)中提取信息。

0 投票
2 回答
5207 浏览

api - 新闻数据 API 或 Feed

我想知道是否有任何可用于编码/数据挖掘的新闻提要/api。例如,Skygrid 提供实时新闻提要,以及新闻是好是坏,但这一切都在 Flash 中,他们似乎不提供除 Twitter 之外的任何 rss。