问题标签 [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - 如何在我的设置中安装“Office 2007 的 DataMining 添加”?
我正在编写一个需要为 Office 2007 安装 DataMining 添加的安装程序。
1)如何检测它是否已经安装?
2) 如果没有安装,我下载并运行 MSI (SQLServer2008_DMAddin.msi)。但是,我如何自己运行服务器配置 (Microsoft.SqlServer.DataMining.Office.ServerConfiguration.exe) 工具而不让插件在用户第一次打开 Excel 时向他们提问?
sorting - 如何对文本进行数据挖掘?
这就是问题所在。我有一堆大文本文件,其中包含书面材料的段落和段落。每个段落都包含对几个人(姓名)的引用,并记录了一些主题(地点、对象)。
我如何对这堆数据进行挖掘以组装一些分类库?...一般来说,有两件事。
我不知道我在找什么,所以我需要一个程序来获取最常用的单词/多个单词(“Jacob Smith”或“bluewater inn”或“arrow”)。
然后知道关键字,我需要一个程序来帮助我搜索相关的段落,然后对结果进行排序和细化(手动)。
text - 如何提取文本中使用的关键字?
如何通过数据挖掘一堆文本以获取关键字?(“雅各布·史密斯”或“栅栏”)
是否已经有软件可以做到这一点?即使是半自动的,如果它可以过滤掉“the”、“and”、“or”等简单的词,那么我可以更快地进入主题。
php - 词法分析库
我想制作一款能够识别句子是正面还是负面的软件。
周围有词法分析库吗?
我真的不知道我应该从哪里开始。
algorithm - 如何从很多页面中获取相似的文本?
从很多文本中获取x个最相似的文本到一个文本。
也许将页面更改为文本会更好。
您不应该将文本与每个文本进行比较,因为它太慢了。
f# - FORTRAN 或 C(或托管代码)中的数据挖掘模型?
我们正计划为 windows 开发一个数据挖掘包。程序核心/计算引擎将在 F# 中开发,GUI 内容/DB 绑定等在 C# 和 F# 中完成。
但是,我们还没有决定模型的实现。由于我们需要高性能,我们可能不能在这里使用托管代码(这里有什么反对意见吗?)。问题是,在 FORTRAN 中开发模型是否合理,或者我们应该坚持使用 C(或者可能是 C++)。我们正在考虑在某个时候将 OpenCL 用于合适的模型 - 对于这些情况,必须从托管代码 -> FORTRAN -> C -> OpenCL 调用开始感觉很有趣。
有什么建议吗?
algorithm - 评估用户反应的算法
我正在开发一个用于对汽车照片进行分类的 Web 应用程序。用户将看到各种车辆的照片,并被要求回答一系列关于他们所看到的问题。结果将被记录到数据库中,平均并显示。
我正在寻找算法来帮助我识别经常不与该组投票的用户,这表明他们可能没有注意照片,或者他们对所看到的内容撒谎。然后,我想排除这些用户,并重新计算结果,这样我就可以有把握地说,这张特定的照片显示了这样和那样的车辆。
这个问题要问所有计算机科学的人,在哪里可以找到这样的算法,或者给我自己设计这样的算法的理论背景。我假设我将不得不学习一些概率和静态,也许是一些数据挖掘。一些书籍推荐会很棒。谢谢!
PS 这些是多项选择题。
这些都是很好的建议。谢谢!我希望有一种方法可以在堆栈溢出时选择多个正确答案,以便更多人的贡献得到认可!
algorithm - 在社交网络中对朋友进行分类
我面临以下问题:
假设你是一个社交网络用户,因此有一个朋友列表F(u)。分区是函数F->G,其中G是一组组,例如高中、大学、工作等。
我需要想出算法来划分F:
- 输入是F以及F中每个f的F (f)(每个u的朋友的朋友列表)。
- 在运行期间,允许算法向u提问(例如,“对于某些特定用户v的最佳组是什么?”)。
- 问题的数量应保持在最低限度(什么是最低限度并不是一个明确的数字,但我会说 5% 的朋友数量似乎是正确的)。
显然,生成的分区不会是最佳的,但它应该可以作为以后改进的起点。
任何想法将不胜感激
编辑:不,这不是家庭作业。我相信家庭作业会有更明确的要求和目标功能。无论如何,不,这实际上是我面临的现实世界问题。
我也可能已经简化了一点,但实际上用户可能是许多组的一部分(所以它更像是F->P(G),其中P(G)是权力组,如果G),所以更好的算法将能够做到这一点。
sql-server - 什么是知识发现和数据挖掘?
我想 SQL 查询获取“原始数据”......
关于 SQL Server 中的数据挖掘,有什么好的起点吗?
MS-SQL server 2005、2008 中是否有任何可用的 KDD 即用型算法?
text - 有人可以以非常简单的图形方式举一个余弦相似度的例子吗?
您能在此处(以列表或其他形式)显示向量,然后进行数学运算,让我们看看它是如何工作的吗?