问题标签 [data-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
538 浏览

algorithm - 使用遗传算法进行稀疏参数选择

我面临一个参数选择问题,我想使用遗传算法 (GA) 来解决这个问题。我应该从 3000 个可能的参数中选择不超过 4 个参数。使用二进制染色体表示似乎是一种自然的选择。评估函数惩罚过多的“选择”属性,如果属性的数量可以接受,则评估选择。

问题是在这些稀疏的条件下,遗传算法几乎无法改善人口。平均适应度成本和“最差”个体的适应度都不会在几代人中得到改善。我所看到的只是最好个人的分数略有(甚至很小)的提高,我想这是随机抽样的结果。

使用参数索引对问题进行编码也不起作用。这很可能是因为染色体是有方向的,而选择问题不是(即染色体 [1, 2, 3, 4]; [4, 3, 2, 1]; [3, 2, 4, 1] 等相同)

你会建议什么问题表示?

PS 如果这很重要,我使用PyEvolve

0 投票
4 回答
3063 浏览

sql-server - 商业智能:使用 MS SQL Server 进行数据挖掘?

我必须学习使用 SQL Server 进行数据挖掘。据我所知,SQL Server 中的商业智能支持数据挖掘,但我不太确定。

  • BI 真的支持数据挖掘吗?
  • 如何开始使用 SQL Server 进行数据挖掘?我的意思是,诸如书籍、博客等资源

谢谢你们。

0 投票
4 回答
1869 浏览

c# - 预测中的蒙特卡洛模拟?

我是物理学家。我也有一些关于蒙特卡洛模拟的信息。我想和蒙特卡洛一起学习财务预测。你有什么主意吗?您如何看待财务决策编程?使用蒙特卡洛模拟的财务软件的未来如何?

0 投票
3 回答
1078 浏览

sql-server - 检测数据中的相关列

假设我有以下数据:

如何检测“CustomerName”、“CustomerAddress”和“CustomerCode”列是否完全相关?我认为 Sql Server 数据挖掘可能是适合这项工作的工具,但我对此没有太多经验。

提前致谢。

更新:

通过“相关”,我的意思是在统计意义上,只要 a 列是 x,b 列就会是 y。在上述数据中,最后三列相互关联,而第一列不相关。

操作的输入将是表的名称,输出将类似于:

0 投票
8 回答
2924 浏览

sql-server - 如何存储多年的 100 x 25 Hz 时间序列 - Sql Server 或时间序列数据库

我正在尝试确定存储 100 个 25 Hz 浮点数据通道的可能方法。这将导致每年 78,840,000,000 个数据点

理想情况下,所有这些数据都可以有效地用于网站和工具,例如 Sql Server 报告服务。我们知道关系数据库在处理这种规模的时间序列方面很差,但尚未确定一个令人信服的时间序列特定数据库。

关键问题是压缩以实现高效存储,同时还提供简单高效的查询、报告和数据挖掘。

  • 您将如何处理这些数据?

  • Sql Server 中是否有可以处理如此大量时间序列数据的功能或表设计?

  • 如果没有,Sql server 是否有任何第三方扩展来有效处理庞大的时间序列?

  • 如果没有,是否有专门处理此类数据但通过 Sql、.Net 和 Sql Reporting 服务提供自然访问的时间序列数据库?

谢谢!

0 投票
3 回答
465 浏览

algorithm - 从全文搜索结果中提取小的相关位文本(如 Google 所做的那样)

我已经在讨论论坛数据库中实现了全文搜索,我想以 Google 的方式显示搜索结果。即使对于很长的 html 页面,搜索结果列表中也只会显示两三行文本。通常这些是包含搜索词的行。

如何根据文本本身和搜索词提取几行文本的好算法是什么。我可以想到一些简单的方法,比如在文本中出现搜索词之前使用一行文本,然后再使用一行——但这似乎太简单了,无法工作。

想得到一些方向,想法和见解。

谢谢你。

0 投票
2 回答
506 浏览

php - 我如何处理我刚刚从 dbpedia 下载的这个 csv 数据集?

我刚刚从 dbpedia 下载了维基百科信息框的 csv。但是我不知道如何使用它:-SI 想将所有这些数据导入数据库,但不太确定如何从这里获取。我从http://wiki.dbpedia.org/Downloads32#infoboxes下载了它

我在 PHP 工作


仅作记录 - 这个 csv 文件大约为 1.8 GB。我实际上正在经历所有这些麻烦,只是为了从维基百科的一组精选文章中获取一组精选的信息框。我会手动完成,除非我需要包含国家和城市的超过 10 000 个条目的信息框。我只是在寻找一种简单的方法来做到这一点,坦率地说,我一直在使用我所有的选择:(

0 投票
4 回答
687 浏览

php - 维基百科整合问题 - 最终需要解决这个问题 101

对不起,伙计们,我一直在模拟询问如何将维基百科数据集成到我的应用程序中,坦率地说,我认为我没有取得任何成功,因为我一直在尝试所有的想法并且有点放弃当我读到死胡同或障碍时。我将尝试解释我到底想在这里做什么。

我有一个简单的位置目录,如城市和国家。我的应用程序是一个简单的基于 php 的基于 ajax 的应用程序,具有搜索和浏览功能。人们注册并将自己与一个城市相关联,当用户浏览城市时 - 他/她可以看到该城市的人和公司,即我们系统中的任何人。

该部分很容易自行设置并且工作正常。问题是我的搜索结果将采用以下格式,即有人搜索让我们说北京。它将在三个选项卡式界面框中返回:

  1. 第一个选项卡会有一个包含北京城市信息的信息框
  2. 第二个将是一个国家选项卡,其中包含来自中国的国家信息的信息框
  3. 第三个选项卡将列出所有在北京的联系人。

前两个标签的内容应该来自维基百科。现在我完全不知道什么是完成这项工作的最佳方法,而且一旦决定了一种方法——我该如何去做并让它变得相当强大的。

到目前为止,我能够消化的一些好的和坏的想法是:

  1. 直接向维基百科运行 curl 请求,并在每次搜索时解析返回的数据。在这种情况下,无需维护 wikipedia 上的数据的本地副本。另一个问题是它完全依赖于来自远程第三位置的数据,我怀疑每次向维基百科发出请求以检索基本信息是否可行。再加上考虑到维基百科上的数据需要在每个请求时进行解析 - 这将克服繁重的服务器负载......或者我在这里推测。

  2. 下载维基百科转储并查询。好吧,我已经下载了整个数据库,但是从 xml 转储中导入所有表需要很长时间。另外考虑一下我只想提取国家和城市列表及其信息框的事实 - 转储中的很多信息对我来说毫无用处。

  3. 制作我自己的本地表并创建一个 cron [我将在此处解释为什么 cron 工作] 脚本,它会以某种方式解析维基百科上的所有国家和城市页面,并将它们转换为我可以在我的表中使用的格式。但老实说,我不需要信息框中的所有信息,因为事实上我什至可以按原样获得信息框的基本标记——这对我来说已经足够了。像:

国家名称 | 信息框原始文本

如果需要,我可以亲自提取坐标和其他细节等内容。

我什至尝试从 infochiumps 和 dbpedia 下载第三方数据集,但 infochimps 的数据集不完整,并且不包含我想要显示的所有信息 - 加上 dbpedia,我完全不知道如何处理我下载的信息框的 csv 文件恐怕它也可能不完整。

但这只是这里问题的一部分。我想要一种显示维基百科信息的方法 - 我会让所有指向维基百科的链接以及来自维基百科的好信息在周围正确显示但问题是我需要一种方法来定期更新我拥有的信息来自维基百科,所以至少我没有完全过时的数据。就像说一个可以检查的系统,如果我们有一个新的国家或新的位置,它可以解析信息并以某种方式检索它。我在这里依靠维基百科中的国家和城市类别,但坦率地说,所有这些想法都写在纸上,部分编码并且非常混乱。

我正在用 PHP 和 MySQL 编程,我的截止日期很快就要到了——鉴于上述情况和要求,遵循和实施的最佳和最实用的方法是什么。我对想法完全持开放态度——如果有人做过类似的事情,我会举个实际例子——我很想听听:D

0 投票
3 回答
4615 浏览

python - 从 Google Finance 获取超出 API 范围的财务数据

谷歌的金融 API 是不完整的——页面上的许多数字,例如:

http://www.google.com/finance?fstype=ii&q=NYSE:GE

无法通过 API 获得。

我需要这些数据来根据 Greenblatt 公式对加拿大证券交易所的公司进行排名,该公式可通过谷歌搜索“greenblatt index scans”获得。

我的问题:访问和处理这些网页上的数据的最智能/干净/有效的方式是什么。在这种情况下,这种繁琐的方法真的有必要吗?如果是,最好的方法是什么?我目前正在为与此相关的项目学习 Python。

0 投票
6 回答
427 浏览

python - 无法找到被 robots.txt 阻止的互联网页面

问题:寻找大学数学讲座的答案和练习。赫尔辛基

实际问题

  1. 用 .com 列出Disallowrobots.txt中的网站列表
  2. 在 (1) 处列出包含 *.pdf 文件的站点列表
  3. 在 (2) 处列出在 pdf 文件中包含单词“analyysi”的站点

实际问题的建议

  1. 问题 3:制作一个从 pdf 文件中抓取数据的编译器

问题

  1. 您如何搜索已注册的 .com 网站?
  2. 你将如何通过 Python 的 defaultdict 和 BeautifulSoap 解决实际问题 1 和 2?