问题标签 [data-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
293 浏览

sql-server - 如何在我的设置中安装“Office 2007 的 DataMining 添加”?

我正在编写一个需要为 Office 2007 安装 DataMining 添加的安装程序。

1)如何检测它是否已经安装?

2) 如果没有安装,我下载并运行 MSI (SQLServer2008_DMAddin.msi)。但是,我如何自己运行服务器配置 (Microsoft.SqlServer.DataMining.Office.ServerConfiguration.exe) 工具而不让插件在用户第一次打开 Excel 时向他们提问?

0 投票
6 回答
1382 浏览

sorting - 如何对文本进行数据挖掘?

这就是问题所在。我有一堆大文本文件,其中包含书面材料的段落和段落。每个段落都包含对几个人(姓名)的引用,并记录了一些主题(地点、对象)。

我如何对这堆数据进行挖掘以组装一些分类库?...一般来说,有两件事。

  1. 我不知道我在找什么,所以我需要一个程序来获取最常用的单词/多个单词(“Jacob Smith”或“bluewater inn”或“arrow”)。

  2. 然后知道关键字,我需要一个程序来帮助我搜索相关的段落,然后对结果进行排序和细化(手动)。

0 投票
6 回答
55371 浏览

text - 如何提取文本中使用的关键字?

如何通过数据挖掘一堆文本以获取关键字?(“雅各布·史密斯”或“栅栏”)

是否已经有软件可以做到这一点?即使是半自动的,如果它可以过滤掉“the”、“and”、“or”等简单的词,那么我可以更快地进入主题。

0 投票
2 回答
1056 浏览

php - 词法分析库

我想制作一款能够识别句子是正面还是负面的软件。

周围有词法分析库吗?

我真的不知道我应该从哪里开始。

0 投票
5 回答
442 浏览

algorithm - 如何从很多页面中获取相似的文本?

从很多文本中获取x个最相似的文本到一个文本。

也许将页面更改为文本会更好。

您不应该将文本与每个文本进行比较,因为它太慢了。

0 投票
2 回答
720 浏览

f# - FORTRAN 或 C(或托管代码)中的数据挖掘模型?

我们正计划为 windows 开发一个数据挖掘包。程序核心/计算引擎将在 F# 中开发,GUI 内容/DB 绑定等在 C# 和 F# 中完成。

但是,我们还没有决定模型的实现。由于我们需要高性能,我们可能不能在这里使用托管代码(这里有什么反对意见吗?)。问题是,在 FORTRAN 中开发模型是否合理,或者我们应该坚持使用 C(或者可能是 C++)。我们正在考虑在某个时候将 OpenCL 用于合适的模型 - 对于这些情况,必须从托管代码 -> FORTRAN -> C -> OpenCL 调用开始感觉很有趣。

有什么建议吗?

0 投票
7 回答
229 浏览

algorithm - 评估用户反应的算法

我正在开发一个用于对汽车照片进行分类的 Web 应用程序。用户将看到各种车辆的照片,并被要求回答一系列关于他们所看到的问题。结果将被记录到数据库中,平均并显示。

我正在寻找算法来帮助我识别经常不与该组投票的用户,这表明他们可能没有注意照片,或者他们对所看到的内容撒谎。然后,我想排除这些用户,并重新计算结果,这样我就可以有把握地说,这张特定的照片显示了这样和那样的车辆。

这个问题要问所有计算机科学的人,在哪里可以找到这样的算法,或者给我自己设计这样的算法的理论背景。我假设我将不得不学习一些概率和静态,也许是一些数据挖掘。一些书籍推荐会很棒。谢谢!

PS 这些是多项选择题。

这些都是很好的建议。谢谢!我希望有一种方法可以在堆栈溢出时选择多个正确答案,以便更多人的贡献得到认可!

0 投票
1 回答
432 浏览

algorithm - 在社交网络中对朋友进行分类

我面临以下问题:
假设是一个社交网络用户,因此有一个朋友列表F(u)分区是函数F->G,其中G是一组组,例如高中、大学、工作等。
我需要想出算法来划分F

  • 输入是F以及F中每个fF (f)(每个u的朋友的朋友列表)。
  • 在运行期间,允许算法向u提问(例如,“对于某些特定用户v的最佳组是什么?”)。
  • 问题的数量应保持在最低限度(什么是最低限度并不是一个明确的数字,但我会说 5% 的朋友数量似乎是正确的)。

显然,生成的分区不会是最佳的,但它应该可以作为以后改进的起点。

任何想法将不胜感激

编辑:不,这不是家庭作业。我相信家庭作业会有更明确的要求和目标功能。无论如何,不​​,这实际上是我面临的现实世界问题。

我也可能已经简化了一点,但实际上用户可能是许多组的一部分(所以它更像是F->P(G),其中P(G)是权力组,如果G),所以更好的算法将能够做到这一点。

0 投票
1 回答
258 浏览

sql-server - 什么是知识发现和数据挖掘?

我想 SQL 查询获取“原始数据”......

关于 SQL Server 中的数据挖掘,有什么好的起点吗?

MS-SQL server 2005、2008 中是否有任何可用的 KDD 即用型算法?

0 投票
12 回答
165884 浏览

text - 有人可以以非常简单的图形方式举一个余弦相似度的例子吗?

维基百科上的余弦相似度文章

您能在此处(以列表或其他形式)显示向量,然后进行数学运算,让我们看看它是如何工作的吗?