问题标签 [data-science]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
476 浏览

python - 调试情绪分析器

我正在尝试使用 Python 的 NLTK 模块对 NLP 进行第一次尝试,以对选定的推文进行情绪分析。我一直在关注本教程并下载了Sentiment140 推文语料库作为我的训练数据集,因为这仅用于教育目的(包含约 160 万条手分类推文)。

我的代码可以在这里找到。请注意,这是在 Python 2 中的 iPython Notebook 中完成的。

问题第 1 部分 我正在使用训练集中的 10,000 行测试我的代码,以查看它是否在输入所有 1.6m 行之前工作。当我运行代码时,第 96 行返回 None:

但是,本教程建议我应该看到如下内容:

我使用第 96 行作为指标来告诉我分类器是否有效。就我已经尝试过的修复而言:我在教程中看到一条评论,建议第 87 行应该是:

而不是现在的样子:

我尝试了这两种变体。

在我运行完整的 1.6m 行数据集以训练分类器之前,我想解决这个问题。

以下是我对笔记本的所有导入语句(一些导入语句用于笔记本的其他区域):

问题第 2 部分 我如何调整此代码以返回极性分数本身。就像是:

基于这个 NLTK page,我似乎会调用 .polarity_socres() 方法,但我不确定我什至会在我的代码中的哪个位置这样做。这是他们返回上述内容的代码:

0 投票
1 回答
3758 浏览

python - 如何使用 scipy 的分层聚类将聚类分配给新的观察(测试数据)

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

如何计算新数据的距离并使用来自训练数据的集群分配集群?

代码参考:joernhees.de

0 投票
3 回答
3091 浏览

data-mining - “顺序模式挖掘”和“顺序规则挖掘”有什么区别

非常强大的开源数据挖掘工具 SPMF 的文档分别列出了它们:

http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

有谁知道为什么?

0 投票
2 回答
454 浏览

machine-learning - 机器学习哲学:将模型应用于有偏见的数据

我有一个机器学习问题,我不知道是否有理论上的解决方案。

我已经标记了数据(我们称之为数据集D1)来构建一个随机森林分类模型,它表现良好。

现在我的主要兴趣是将这个模型应用到另一个具有零标签的数据集D2上,这意味着我不能将它用于训练。衡量D2性能的唯一方法是检查从中预测的类的比例。

问题:与D1相比,D2偏斜(特征不具有相同的均值或拟合相同的分布)。正因为如此,应用于D2的模型给出了严重偏向一类的结果。我知道这是正常的,因为D2的大部分类似于D1的一小部分。

但是有什么办法可以纠正这种偏斜吗?我从我的问题的性质知道,预测的类的比例应该不那么有偏见。我已经尝试过标准化,但它并没有真正帮助。

我觉得我的想法不正确:3

0 投票
2 回答
26867 浏览

python - 标准 Keras 模型输出是什么意思?Keras 的时代和损失是什么?

我刚刚使用 Keras 构建了我的第一个模型,这就是输出。它看起来像是构建任何 Keras 人工神经网络后得到的标准输出。即使在查看文档之后,我也不完全了解时代是什么以及输出中打印的损失是什么。

Keras 的时代和损失是什么?

(我知道这可能是一个非常基本的问题,但我似乎无法在网上找到答案,如果从文档中很难找到答案,我认为其他人也会有同样的问题,因此决定在这里发布.)

0 投票
2 回答
2030 浏览

geolocation - 如何检查给定的字符串是否是有效的地理位置?

我有一个字符串列表(名词短语),我想从中过滤掉所有有效的地理位置。其中大多数(不需要的位置名称)是国家或城市或州名称。有什么方法可以做到这一点?是否有任何可用的包含世界所有国家、州、城市的开源查找表?

所需输出示例: TREC4:假, 维也纳:假, IBM:假, 蒙特利尔新加坡

与这篇文章不同:验证用户输入的位置字符串是有效的地理位置吗? 我有大量这样的字符串(约 70 万),所以谷歌地理定位 API可能不是我的选择。

0 投票
2 回答
22758 浏览

python - 如何判断哪个 Keras 模型更好?

我不明白输出中使用哪种精度来比较我的 2 个 Keras 模型以查看哪个更好。

我是使用“acc”(来自训练数据?)一个还是“val acc”(来自验证数据?)一个?

每个时期都有不同的 accs 和 val accs。我如何知道整个模型的 acc 或 val acc?我是否对所有 epochs accs 或 val accs 进行平均以找到整个模型的 acc 或 val acc?

模型 1 输出

模型 2 输出

0 投票
8 回答
207895 浏览

python - 我在哪里调用 Keras 中的 BatchNormalization 函数?

如果我想在 Keras 中使用 BatchNormalization 函数,那我只需要在开始时调用一次吗?

我为此阅读了此文档:http: //keras.io/layers/normalization/

我不知道我应该在哪里称呼它。下面是我尝试使用它的代码:

我问是因为如果我使用包括批处理规范化的第二行运行代码,并且如果我在没有第二行的情况下运行代码,我会得到类似的输出。因此,要么我没有在正确的位置调用该函数,要么我想它并没有太大的区别。

0 投票
2 回答
3163 浏览

python - 使用 Keras 时如何更改层中的单元数?

下面的代码工作得很好。如果我尝试将所有 64 更改为 128,那么我会收到有关形状的错误。如果在使用 Keras 时更改人工神经网络中的层数,是否需要更改输入数据形状?我不这么认为,因为它要求 input_dim 是正确的。

作品:

不工作:

0 投票
3 回答
25649 浏览

python - 如何在 Keras 中使用高级激活层?

如果我使用其他激活层(如 tanh),这是我的代码:

在这种情况下,它不起作用并显示“TypeError:'PReLU' object is not callable”,并且在 model.compile 行调用错误。为什么会这样?所有非高级激活功能都有效。但是,包括这个在内的任何一种高级激活函数都不起作用。