问题标签 [data-preprocessing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1156 浏览

python - 如何使用 Numpy 数组解决 Scikit 学习预处理管道错误?

我正在使用 scikit-learn 构建一个分类器来预测两个句子是否是释义(例如释义:爱因斯坦有多高与阿尔伯特爱因斯坦的长度是多少)。

我的数据由 2 个带有字符串(短语对)的列和 1 个带有 0 和 1 的目标列组成(= 没有释义,释义)。我想尝试不同的算法。

我希望下面的最后一行代码适合模型。相反,预处理管道不断产生我无法解决的错误:“AttributeError:'numpy.ndarray'对象没有属性'lower'。”

代码如下,我已经隔离了显示的最后一行中发生的错误(为简洁起见,我排除了其余部分)。我怀疑这是因为目标列包含 0 和 1,不能转为小写。

我已经在stackoverflow上尝试过类似问题的答案,但到目前为止还没有运气。

你怎么能解决这个问题?

======

0 投票
2 回答
1450 浏览

python-3.x - 如何使用 Openpyxl 访问 Onedrive 上的 Excel 文件

我想用 Openpyxl(Python)打开一个 Excel 文件(在 Onedrive 上)。我收到错误尝试这个:

OSError: [Errno 22] Invalid argument: 'https://d.docs.live.net/dd10...

0 投票
2 回答
66 浏览

java - 带有 (String,ArrayList) 的 TreeMap)

我正在尝试读取输入文件。输入文件的每个值都插入到 TreeMap 中

  1. 如果单词不存在:将单词插入树形图并将单词与 ArrayList(docId, Count) 关联。
  2. 如果 Word 存在于 TreeMap 中,则检查当前 DocID 是否在 ArrayList 中匹配,然后增加计数。


对于 ArrayList,我创建了另一个类,如下所示:

之后,我尝试将 TreeMap 作为 <DocID - Count> 打印到文本文件中,不确定我在这里做错了什么,但我得到的输出如下:

想知道是否有人可以指导我做错了什么,如果我的方法不正确,我应该怎么做?

0 投票
1 回答
75 浏览

python - 数据的清洗和矢量化

我不知道如何清理和矢量化数据。

以下数据在我的数据框中:

在此处输入图像描述

但是,每当我尝试使用以下代码清理数据时

我收到此错误KeyError: 'Comment' 这是它的完整堆栈跟踪

0 投票
2 回答
121 浏览

r - 如何在 R 中创建具有分组事务的新数据框?

我正在尝试使用在交易中购买的物品的现有数据框在 R 中创建一个新的数据框,如下所示:

数据的 dput 输出:

正如您在示例中看到的那样,这些行是由于购买的每个单独的产品,而不是交易本身(因此交易 2 是第 2 行和第 3 行)。

我想创建一个新表,其中行是不同的事务(1、2、3 等),不同的列是分类的(面包 = 0、1),所以我可以执行先验分析。

知道如何将不同的交易组合在一起,然后创建这些新列吗?

0 投票
1 回答
261 浏览

pandas - 如何使用 MultiLabelBinarizer 进行多标签分类?

我正在尝试进行多标签分类。但我真的被困在数据预处理上。我的目标数据在一个单独的文件中。目标数据如下所示

我正在尝试使用 MultiLabelBinarizer 来预处理数据。最后,我希望它看起来像这样 -

ID 数据 C# 表格 类型转换 十进制
1 1 0 0 0 0
4 0 1 1 1 1

这是我正在使用的代码

这是我得到的输出。

我究竟做错了什么?

0 投票
1 回答
193 浏览

python - 从 keras 中的 TimeseriesGenerator 获取实际使用的目标,而不是输入的目标

假设我使用 keras 创建了以下时间序列生成器:

由于它具有设置start_index=5,它将跳过前 5 个数据点,因此gen仅包含这些实际可用的数据:

我想要的是一种简单的方法来提取所有实际可用的目标/标签/基本事实,所以像

但我最接近的是

它只给出输入目标,而不是真正使用的目标。那么,我怎样才能从生成器中取出实际可用的目标呢?谢谢

0 投票
1 回答
116 浏览

scikit-learn - 为什么 ColumnTransformer 使用相同的代码但不同的 .csv 文件产生不同的输出?

我正在努力完成门课程,希望能够在春季之前完成这种入门级别的课程。这是我在这个令人难以置信的资源上的第一篇文章,并将尽我所能遵守发布格式。作为加强我的学习和致力于长期记忆的一种潜在方式,我正在我自己的数据集上尝试相同的事情,该数据集包含超过 500 个条目,其中包含与我更相关的数据,而不是虚拟数据。

我正在学习数据预处理阶段,如果我理解正确的话,您可以在其中填写缺失值并将列分成各自的 X 和 Y,以便稍后输入模型。

所以在课程示例中,它是左上角的国家数据集。然后左下角是我自己的数据数据库,我在我玩的多人游戏中保存了大约一年。它有 100 个左右的角色,您可以从 5 种不同的类别角色之间进行选择。

课程数据集(左上)个人数据集(左下 个人数据集列转换结果

产生的不同输出是怎么回事,唯一的区别是数据集(.csv 文件)?该课程的数据集看起来不错;第一列国家(文本类别)在输出中变成二进制向量,不是吗?为什么我的数据集上的输出省略了列,并产生了这些看起来很奇怪的元组,后面跟着一个看起来像随机数的东西?我尝试删除 np.array 函数,尝试在每个级别打印每个输出,但无法查看导致差异的原因。我希望在我的数据集上它将字符的名称转换为二进制向量(1s/0s 的组合?),以便计算机可以理解差异并将它们映射到适当的结果。相反,我得到了我以前从未见过的奇怪的输出。

编辑:事实证明,这些奇怪的数字组合就是所谓的“稀疏矩阵”。必须从产生 csr_array 的 type() 开始做一些研究。如果我理解我正确阅读的内容,那么里面的所有内容都会占用一列,所以我只是使用 [:] 尝试了所有行/列,我没有收到错误。

非常感谢您的时间和帮助。

编辑:多亏了这个线程,我才能完成这个数据预处理/导入/清理/阶段练习,使用我自己的约 550 行数据集进行特征缩放。

0 投票
2 回答
58 浏览

tensorflow - Tensorflow Model PreProcess Time Data

I got information where and when a cab customer entered his vehicle. Now I want to predict in which street he wants to drive. My dataset is looking like this:

Example

Day, Hour, Minute, Entrance, Destination (Label)

Monday, 10, 45, ExampleStreet, StackOverflowCorner (Not PreProcessed)

0, 10, 45, 0, 1 (PreProcessed)

Converted like this:

Now I PreProcessed my Dataset like this:

Day -> Number from 0-6 (0 Monday, 1 Tuesday ...)

Hour -> European format from 0-24

Minute -> No preprocess

Entrance -> I used LabelEncoder (0 ExampleStreet, 1 ExampleCorner ...)

Destination -> Same like Entrance with Label Encoder

I got 98 possible destinations and the same amount of entrances and around 700 samples. I already used Tensorflow but only get a validation accuracy near 0.

Questions

Did I PreProcess my data rightly? Do I need hot-encoding or gather more samples? Is another algorithm mabye more effective (Tree?)?

Thanks in advance...

0 投票
0 回答
25 浏览

python-3.x - 如果数据预处理语句不起作用。请任何人都可以解决这个问题

我正在为某些任务预处理带有开始日期(代码中的“sd”)和结束日期(代码中的“ed”)的原始 excel 文件,并且我为新列表/列编写了一个 if 代码,它显示了每个任务的状态任务。即未开始,正在进行和完成。显而易见的条件是如果 sd 为空则任务未启动,如果 sd 存在但 ed 为空则任务继续进行,如果 sd 和 ed 都存在则任务完成。但只是完成作品的条件。我在 python 3.8 中使用 spyder