问题标签 [feature-engineering]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

379 问题

0 投票

0 回答

502 浏览

tensorflow - numeric_column shape=2 和两个数字列之间的区别

我最初拥有的与时间相关的数据格式为整数：

1）第一个选项是将时间描述为 numeric_column：

2）另一种选择是将时间分成小时和分钟分成两个单独的特征列：

3）第三种选择是维护一个特征列，但是让tensorflow知道它可以在拆分为小时和分钟时进行描述：

这种拆分是否有意义，选项 2) 和 3) 之间有什么区别？

作为附加问题，我遇到了如何从 csv 解码矢量数据的问题：

如何让tensorflow知道“14,2”、“15,1”应该被认为是张量shape=2？

编辑1：

我找到了一种从 csv 解码类似“数组”的数据的解决方案。在训练和评估函数中，我添加.map了对某些列的数据进行解码的步骤：

其中 parse_csv 实现为：

我认为两列和一列之间的区别在于shape=2“权重”的分布方式。

2018-08-22T00:24:18.417

0 投票

1 回答

3183 浏览

python - KMeans 聚类不平衡数据

我有一组包含 50 个特征（c1、c2、c3 ...）的数据，行数超过 80k。

每行包含标准化的数值（范围为 0-1）。它实际上是一个归一化的虚拟变量，其中一些行只有很少的特征，3-4（即如果没有值则分配为 0）。大多数行有大约 10-20 个特征。

我使用 KMeans 对数据进行聚类，结果总是产生具有大量成员的聚类。经过分析，我注意到少于 4 个特征的行往往会聚集在一起，这不是我想要的。

无论如何平衡集群？

python cluster-analysis k-means data-science feature-engineering

2018-09-10T08:26:05.353

0 投票

1 回答

352 浏览

deep-learning - 使用深度学习混合文本和数字特征进行文本分类

我有一个关于将文本分类为几个类别（主题）的问题。除了文本之外，我还有一些我认为可能有用的数字特征（这些特征中也有缺失值）。但最重要的信息当然是在文本中呈现的。因此，我认为深度学习方法（使用通用管道：嵌入层 + CNN 或带有 dropout + Dense 层的 RNN）将是最佳选择。将仅适用于文本输入的当前模型与数字特征混合的最佳实践是什么？在这个领域是否有任何技巧、最佳常见做法、最先进的研究？有没有关于这个主题的论文/实验（可能在 GitHub 上）？

如果我们能概括地思考这个问题，那就太好了，但为了了解我们可以解决什么样的问题，我将举一个具体的例子。假设我们有来自用户的评论，他们描述了他们在接受服务或购买商品时遇到的问题。目标特征是多标签：与用户投诉相关联的一组标签（类别/主题）（我们应该在数百个可能的主题中选择相关的）。

然后除了用户的评论本身（这是最重要的特征）之外，我们可能还想考虑一些数字特征，如价格、等待时间、评级（客户满意度得分）等。这可能对预测一些有用的特定类别。

这个想法是以某种方式在深度学习模型中混合所有这些特征来生成最终模型。不确定我是否知道如何做到这一点的最佳方法。这类问题的最佳实践/有用的技巧是什么？

deep-learning text-mining feature-engineering natural-language-processing

2018-09-13T17:18:24.580

0 投票

1 回答

197 浏览