问题标签 [feature-engineering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 通过 TensorFlow 中 CSV 的分类特征数组列创建多热 SparseTensor
这是推荐系统中处理稀疏特征(如一些ID特征)的典型方式。我正在寻找一种方便的方法来为 TensorFlow 管道准备数据。
我做了很多搜索,但还没有找到好的解决方案。
下面是一个似乎接近我需要的东西,但还没有工作。
请参阅#######
下面的部分
数据文件如下:
对于第二行,我需要一些 SparseTensor,比如 multi-hot
完整版代码如下:
python - LDA 主题建模改进
我正在研究一个 LDA 模型,以根据其课程描述和标题来识别约 100,000 个在线课程的主题。在进一步的过程中,我想使用这些主题对这些课程进行聚类。到目前为止,我们的模型确定的主题并不是很好,我正在寻找改进的方法 - 并就我的改进尝试获得一些想法。以下是我们当前(非常标准)方法的快速总结,以及我对改进的一些想法:
合并标题、副标题和课程描述
删除长度 < 100 字的描述和非英语描述
对于培训,我只使用较长的英文描述。当然,这意味着非英语描述的课程将被随机分类。
- 随机选择 30,000 条描述
这个数字有些随意。我注意到当使用较少的描述进行培训时,主题更加“清晰”。但是,我们不希望我们的主题基于在此步骤中选择的随机描述而产生偏见。
- 删除停用词
自定义和使用库。
删除标点符号
词形还原
删除出现在超过 50% 文档中的单词
为了识别重复出现的主题,我在 for 循环中多次运行模型并打印了结果主题。基于这些迭代的主题重叠,我正在考虑添加与重复出现的主题相关的维基百科文章,并将它们添加到我们用于训练的描述中。通过这种方式,我希望能够“强化”训练数据中的这些主题,并使它们更加清晰——希望得到更多可解释的主题。目前,我正在将大约 150 篇维基百科文章添加到包含 30,000 条课程描述的语料库中,结果似乎很有希望。
我的主要问题是:将预先选择的维基百科文章添加到我们的训练数据中的方法是否有效?这意味着什么?
我知道,通过使用这种方法,我将我们的模型“推”向我们在初始运行中看到的主题方向 - 但是,我相信对该数据集的训练将导致更好/更可解释的分类当然说明。
machine-learning - 欺诈检测的特征工程
我正在出于学术目的对欺诈检测进行一些研究。我想具体了解交易数据集中的特征选择\工程技术。更详细地说,给定交易数据集(例如信用卡),选择什么样的特征用于模型以及它们是如何设计的?
我遇到的所有论文都集中在模型本身(SVM、NN、...)上,并没有真正涉及到这个主题。
此外,如果有人知道未匿名的公共数据集,那也会有所帮助。
谢谢
python - 带有附加参数的自定义聚合原语?
转换原语可以与其他参数一起正常工作。这是一个例子
输出:
但是,如果我像这样修改并制作成聚合原语:
我收到以下错误:
特征工具是否支持具有附加参数的自定义聚合原语?
python - 如何预处理特征值是数字范围的序数特征并相应地对它们进行排名或编码
我的数据集中有以下特征列:
我是机器学习的新手,发现很难处理这样的功能集。
当我做:
y 的输出是:
这是错误的,因为 <10 应该获得最低排名,并且 500-800 获得错误排名。根据此功能集 >10000 或 10000+ 应该获得最高排名。
我需要相应地对这些数据进行排名或编码,这样如果我的测试数据获得值 5 或 <5,它应该获得与 <10 相同的排名或编码,因为这是最接近的。
python或R中是否有任何方法/包可以帮助我实现这一目标?请帮忙。
machine-learning - 将所有功能与目标变量放在同一范围内如何影响性能?
假设我有以下数据集。(数据完全随机)
我必须预测 [颜色、尺寸、形状、预预订编号] 的某个组合的价格
考虑以下我采用 Color v/s Price 的特征工程方法。我对颜色进行分组以找出每个组(颜色)的平均价格,并简单地将颜色变量替换为各自的平均值。我对每个分类变量都这样做。对于非分类变量,我将它们保持原样。
现在我将这些数据提供给任何 ML 回归模型。
我的问题是:
这种方法有多好/坏?内部会发生什么?
一般来说,使所有变量与目标变量具有强相关性(也许在相同的尺度上)的效果如何?
最重要的是,如果我仅通过添加/乘以减少维度来合并两个或更多分类列,它将如何影响预测?
谢谢。
python - 根据字母“l”或“L”是否在另一列的字符串中创建新列
我正在使用非常混乱的 Open Food Facts 数据集。有一个名为数量的列,其中包含有关相应食物数量的信息。条目看起来像:
...等等(非常混乱!!!)我想创建一个名为is_liquid
. 我的想法是,如果数量字符串在这一行中包含一个l
或L
is_liquid 字段,则应该得到 1,如果不是 0。这是我尝试过的:我写了这个函数:
(顺便说一句:如果某物以“盎司”为单位测量,它是液体吗?)
然后尝试应用它
但我得到的只是这个错误:
有人可以帮我吗?
machine-learning - 具有文本特征的数据集的逻辑回归
我有一个类似的数据集:
让我们说这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将包含 15-20 种不同的类型category 1
。每个 in 类型都category 1
可以有一个 in 类型category 2
。例如。X
可以有a
两次或三次类型的条目和b
两次类型的条目。第三列是输出。我想在这样的数据集上训练一个模型,最后在模型训练完之后,我想通过任何一个category 1
& category 2
,例如:X
& a
- 这应该给我一个1
or的预测输出0
。我打算为此目的使用逻辑回归。
问题:
既然我有文本数据,我应该使用假人并为每种类型创建一个列吗?(例如,既然我有
X
,Y
,Z
我应该创建三个不同的列并分配 a1
或 a0
。我可以为此使用逻辑回归还是它不适合我的应用程序?(我更愿意得到预测的概率
1
)
任何的意见都将会有帮助。
python - python tsfresh - column_id 参数用于什么
tsfresh
需要在特定列中输入数据。我最初认为这column_id
只是 row_index 但我担心这是错误的。
我有传感器数据 - 以 10 秒的间隔捕获压力传感器、温度传感器和湿度传感器。因此它是 4 列pandas DataFrame
。现在告诉我应该如何使用数据?是什么column id
?
这里的文档很好,但我无法理解它们的含义entity
。每个传感器测量一个不同的东西,所有传感器都安装在一个机器单元中。