问题标签 [data-science]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
181 浏览

python - 使用python比较网页结构

我想将一组给定的网页分类为不同的类,主要分为 3 个类(产品页面、索引页面和产品相关项目页面)。我认为可以通过分析它们的结构来完成。我只是根据它们的 DOM(文档对象模型)结构来比较网页。我想知道python中是否有解决这个问题的库。提前致谢。

0 投票
1 回答
80 浏览

r - 使用来自其他列的部分数据在数据集中创建新列,可能使用模式识别

我在 RStudio 中使用 R 有一个特殊的问题,但我猜一般是 R。我有 2 列,我需要提取部分数据并根据列中的原始数据填充一个新列,对于每个 . 在过去的 8 个小时里,我一直试图自己弄清楚并卡住了。

1 列以“记录”为标题,以 A12DE48、W8DE769、B97AB99、S29VV02Y 和 D684SV2229 等为示例数据。在这些数据中,中间的 Alpha 单位是重要的,我确实为所有这些单位列出了 AB、AN、BU、DE、IK、LS、SV、EEQ、JFS 和 PHT。如您所见,它们位于中间,我希望将这些字母单位提取到新列“项目类型”中,以便我的数据集运行模型,因为这些可能是很好的指标。是否有一种方法可以仅提取与我定义的列表相对应的那些提取物和放置物?因为我只需要在列表中找到的那些,而不是只关注字母表,就像我想将规则设置为从这些选项 AB、AN、BU、DE、IK、LS、SV、EEQ、JFS 中提取的一样,和 PHT,如果它之前至少有 1 个值,之后有 1 个值,不管它的数字、字母或特殊字符在哪里

OTHER 列也有类似情况。“项目来源”这一列的数据点类似于 A134、B223、C111、C2134、D2、E58、T(是的,这只是 T) 要点是初始字母与设置的仓库位置有关,我需要那些,但奇怪的是,对于其中的大量来源,多个来源存在于一个条目中,其中将包括“C111 D207 A965”,而也有许多是空的。如何在此处使用“多个来源”文本替换具有多个来源的内容作为条目并且缺少缺少的内容时如何在此处执行列的事情

任何帮助将不胜感激,因为这次我只被允许使用我不太熟悉的 R,尤其是来自 Java

0 投票
1 回答
114 浏览

.net - F# csv 类型提供程序问题

我正在努力在 F# 中使用 csv 类型提供程序来完成简单的数据分析任务。我已经对“Seq”函数和整个 csv 类型提供程序进行了一些谷歌搜索,但找不到与我的问题相关的资源,因此感谢您的帮助。

我正在尝试使用 F# 创建有关赛马数据的指标(每场比赛中的每个跑步者)。我的数据在 csv 中,结构类似于:raceId、runnerId、name、finishPosition、startingPrice 等

所以我最初想做的是按raceId对每个csv行进行分组,并在每场比赛中创建额外的“洞察力”(这里的一个例子是“po​​sitionInBetting”对比赛中的每个跑步者使用“startingPrice”)。

这就是我所拥有的:

因此,这实现了按种族对跑步者进行分组的第一部分,并给了我 seq 元组,其中键是 raceId,值是 Runners 的 seq(我假设,但 VS 告诉我它实际上是 a seq<CsvProvider<...>.Row>

然后我希望这可以工作:

但 r.name 在 VS intellisense 中不可用。我知道我无法理解为什么我的分组函数的输出被定义为seq<CsvProvider<...>.Row>而不是seq<Runner>,但我找不到任何东西可以向我解释,或者如何解决我遇到的问题。

亚历克斯

0 投票
1 回答
202 浏览

r - R - 在多个线程中运行 download.file 脚本

我必须从雅虎财经下载纽约证券交易所所有股票的纽约证券交易所历史收盘价。这是一个工作脚本,下载 600 多只股票的数据需要将近 20 分钟。我有强大的服务器,想并行下载这些。我怎样才能做到这一点?

0 投票
1 回答
503 浏览

machine-learning - 如何为任何分类方法传递多值属性

我有一个功能“技能”,它是一个多值参数。我想用它作为分类的特征。我不知道如何使用它来训练我的模型。

例如,一项工作具有某些所需的技能(例如 Java、Node.js、MVC),对于不同的工作可能会有所不同。我必须使用技能作为参数之一。

任何帮助,将不胜感激。谢谢。

0 投票
4 回答
135 浏览

r - Elements of a dataframe as the column names of a new dataframe in R

I have the following data frame named DF in r:

i want to create a new dataframe (DF2) where each element of DF are the column names of new data frame and column names of DF are elements of DF2:

0 投票
2 回答
229 浏览

python - 什么数据科学编程算法类似于用于连续变量的朴素贝叶斯?

我正在尝试构建和训练一种机器学习数据科学算法,该算法可以正确预测总统在哪个县赢得了什么。我有以下有关训练数据的信息。

总人口 年龄中位数 % 学士及以上学历 失业率 人均收入 家庭总数 平均家庭规模 % 自住住房 % 租房者自住住房 % 空置住房 房价中位数 人口增长 房屋持有增长 人均收入增长 获胜者

我是数据科学的新手。我确实知道朴素贝叶斯是一个很好的分类器,用于尝试使用多个属性进行预测的算法。但是,我阅读了朴素贝叶斯分类器的第一步需要频率表。我的问题是上述所有属性都是连续的数值属性,不属于“是”或“否”类别。那我不使用朴素贝叶斯分类器吗?

我也考虑过使用 ak 最近邻算法,但这看起来不是最准确的并且对我来说正确地加权属性......我正在寻找一种监督算法,因为我有训练数据。谁能给我任何关于使用什么算法的建议?此外,作为该领域的新手,我怎样才能弄清楚将来自己使用什么算法。

0 投票
1 回答
96 浏览

hadoop - 有助于避免在 Hive 分区查询中指定相同信息或列的分区方法?

我每天的交易量高达 5-10 GB 的数据。在我看来,按月分区更有意义..

这是一个例子:

我的表有以下列:

TRANSACTION_DATE TIMESTAMP -- 交易日期

TRANSACTION_AMOUNT INTEGER - 交易金额

DWH_PARTITION STRING -- 进入 PARTITIONED BY 部分的技术领域

现在我想查询 2015 年 1 月 15 日到 2015 年 11 月 15 日之间的交易金额。

我的查询是

此查询返回正确的数据,但它会进行全表扫描,而我希望它只使用分区 2015-01、2015-02、.... 2015-11。

为此,我需要手动指定应该使用哪些分区,以便查询如下:

因为我们不能按时间戳进行分区,所以业务分析师必须知道确切的分区模式(给定的表是否按月、日等进行分区)。

另请注意,有关日期的信息需要指定两次:一次用于交易日期,然后用于分区。

您是否知道一些分区方法可以帮助避免必须两次指定相同的信息并使用户不必知道他们需要查询的所有表的分区模式?

0 投票
1 回答
20090 浏览

neural-network - 如何将数据输入 Keras?如果我有超过 2 列,具体来说 x_train 和 y_train 是什么?

如何将数据输入到 keras?结构是什么?如果我有超过 2 列,具体来说 x_train 和 y_train 是什么?

这是我要输入的数据:

在此处输入图像描述

我试图在 Keras 在其文档中包含的多层感知器神经网络代码示例中定义 Xtrain。( http://keras.io/examples/ ) 这里是代码:

编辑(附加信息):

看这里:Python Keras 深度学习包的数据类型是什么?

Keras 使用包含 theano.config.floatX 浮点类型的 numpy 数组。这可以在您的 .theanorc 文件中进行配置。通常,CPU 计算为 float64,GPU 计算为 float32,但如果您愿意,也可以在 CPU 上工作时将其设置为 float32。您可以通过命令创建正确类型的零填充数组

问题:第 1 步看起来像使用我上面来自 excel 文件的数据创建一个浮点 numpy 数组。我如何处理获胜者列?

0 投票
3 回答
7959 浏览

machine-learning - 推理分析和预测分析有什么区别?

客观的

为了通过具有哪些特征或属性来澄清,我可以说分析是推理性的或预测性的。

背景

参加涉及推理和预测分析的数据科学课程。解释(我所理解的)是

  • 推理的

    从群体中的小样本中得出一个假设,并在更大/整个群体中看到它是正确的。

    在我看来,这是一种概括。我认为诱导吸烟导致肺癌或二氧化碳导致全球变暖是推论分析。

  • 预测性的

    通过测量对象的变量来归纳可能发生的事情的陈述。

    我认为,确定人们对哪些特征、行为、言论做出积极反应并使总统候选人足够受欢迎以成为总统是一种预测分析(这也在课程中涉及)。

问题

我对这两者有点困惑,因为在我看来有一个灰色区域或重叠。

贝叶斯推理是“推理”,但我认为它用于预测,例如垃圾邮件过滤器或欺诈性金融交易识别。例如,银行可以使用先前对变量(如 IP 地址、发起国、受益人账户类型等)的观察,并预测交易是否具有欺诈性。

我想相对论是一种推论分析,它从观察和思想实验中得出一个理论/假设,但它也预测光的方向会弯曲。

请帮助我了解将分析归类为推理性或预测性的必备属性。