问题标签 [data-preprocessing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 Numpy 数组解决 Scikit 学习预处理管道错误?
我正在使用 scikit-learn 构建一个分类器来预测两个句子是否是释义(例如释义:爱因斯坦有多高与阿尔伯特爱因斯坦的长度是多少)。
我的数据由 2 个带有字符串(短语对)的列和 1 个带有 0 和 1 的目标列组成(= 没有释义,释义)。我想尝试不同的算法。
我希望下面的最后一行代码适合模型。相反,预处理管道不断产生我无法解决的错误:“AttributeError:'numpy.ndarray'对象没有属性'lower'。”
代码如下,我已经隔离了显示的最后一行中发生的错误(为简洁起见,我排除了其余部分)。我怀疑这是因为目标列包含 0 和 1,不能转为小写。
我已经在stackoverflow上尝试过类似问题的答案,但到目前为止还没有运气。
你怎么能解决这个问题?
======
python-3.x - 如何使用 Openpyxl 访问 Onedrive 上的 Excel 文件
我想用 Openpyxl(Python)打开一个 Excel 文件(在 Onedrive 上)。我收到错误尝试这个:
OSError: [Errno 22] Invalid argument: 'https://d.docs.live.net/dd10...
java - 带有 (String,ArrayList) 的 TreeMap)
我正在尝试读取输入文件。输入文件的每个值都插入到 TreeMap 中
- 如果单词不存在:将单词插入树形图并将单词与 ArrayList(docId, Count) 关联。
- 如果 Word 存在于 TreeMap 中,则检查当前 DocID 是否在 ArrayList 中匹配,然后增加计数。
对于 ArrayList,我创建了另一个类,如下所示:
之后,我尝试将 TreeMap 作为 <DocID - Count> 打印到文本文件中,不确定我在这里做错了什么,但我得到的输出如下:
想知道是否有人可以指导我做错了什么,如果我的方法不正确,我应该怎么做?
r - 如何在 R 中创建具有分组事务的新数据框?
我正在尝试使用在交易中购买的物品的现有数据框在 R 中创建一个新的数据框,如下所示:
数据的 dput 输出:
正如您在示例中看到的那样,这些行是由于购买的每个单独的产品,而不是交易本身(因此交易 2 是第 2 行和第 3 行)。
我想创建一个新表,其中行是不同的事务(1、2、3 等),不同的列是分类的(面包 = 0、1),所以我可以执行先验分析。
知道如何将不同的交易组合在一起,然后创建这些新列吗?
pandas - 如何使用 MultiLabelBinarizer 进行多标签分类?
我正在尝试进行多标签分类。但我真的被困在数据预处理上。我的目标数据在一个单独的文件中。目标数据如下所示
我正在尝试使用 MultiLabelBinarizer 来预处理数据。最后,我希望它看起来像这样 -
ID | 数据 | C# | 表格 | 类型转换 | 十进制 |
---|---|---|---|---|---|
1 | 1 | 0 | 0 | 0 | 0 |
4 | 0 | 1 | 1 | 1 | 1 |
这是我正在使用的代码
这是我得到的输出。
我究竟做错了什么?
python - 从 keras 中的 TimeseriesGenerator 获取实际使用的目标,而不是输入的目标
假设我使用 keras 创建了以下时间序列生成器:
由于它具有设置start_index=5
,它将跳过前 5 个数据点,因此gen
仅包含这些实际可用的数据:
我想要的是一种简单的方法来提取所有实际可用的目标/标签/基本事实,所以像
但我最接近的是
它只给出输入目标,而不是真正使用的目标。那么,我怎样才能从生成器中取出实际可用的目标呢?谢谢
scikit-learn - 为什么 ColumnTransformer 使用相同的代码但不同的 .csv 文件产生不同的输出?
我正在努力完成这门课程,希望能够在春季之前完成这种入门级别的课程。这是我在这个令人难以置信的资源上的第一篇文章,并将尽我所能遵守发布格式。作为加强我的学习和致力于长期记忆的一种潜在方式,我正在我自己的数据集上尝试相同的事情,该数据集包含超过 500 个条目,其中包含与我更相关的数据,而不是虚拟数据。
我正在学习数据预处理阶段,如果我理解正确的话,您可以在其中填写缺失值并将列分成各自的 X 和 Y,以便稍后输入模型。
所以在课程示例中,它是左上角的国家数据集。然后左下角是我自己的数据数据库,我在我玩的多人游戏中保存了大约一年。它有 100 个左右的角色,您可以从 5 种不同的类别角色之间进行选择。
产生的不同输出是怎么回事,唯一的区别是数据集(.csv 文件)?该课程的数据集看起来不错;第一列国家(文本类别)在输出中变成二进制向量,不是吗?为什么我的数据集上的输出省略了列,并产生了这些看起来很奇怪的元组,后面跟着一个看起来像随机数的东西?我尝试删除 np.array 函数,尝试在每个级别打印每个输出,但无法查看导致差异的原因。我希望在我的数据集上它将字符的名称转换为二进制向量(1s/0s 的组合?),以便计算机可以理解差异并将它们映射到适当的结果。相反,我得到了我以前从未见过的奇怪的输出。
编辑:事实证明,这些奇怪的数字组合就是所谓的“稀疏矩阵”。必须从产生 csr_array 的 type() 开始做一些研究。如果我理解我正确阅读的内容,那么里面的所有内容都会占用一列,所以我只是使用 [:] 尝试了所有行/列,我没有收到错误。
非常感谢您的时间和帮助。
编辑:多亏了这个线程,我才能完成这个数据预处理/导入/清理/阶段练习,使用我自己的约 550 行数据集进行特征缩放。
tensorflow - Tensorflow Model PreProcess Time Data
I got information where and when a cab customer entered his vehicle. Now I want to predict in which street he wants to drive. My dataset is looking like this:
Example
Day, Hour, Minute, Entrance, Destination (Label)
Monday, 10, 45, ExampleStreet, StackOverflowCorner (Not PreProcessed)
0, 10, 45, 0, 1 (PreProcessed)
Converted like this:
Now I PreProcessed my Dataset like this:
Day -> Number from 0-6 (0 Monday, 1 Tuesday ...)
Hour -> European format from 0-24
Minute -> No preprocess
Entrance -> I used LabelEncoder (0 ExampleStreet, 1 ExampleCorner ...)
Destination -> Same like Entrance with Label Encoder
I got 98 possible destinations and the same amount of entrances and around 700 samples. I already used Tensorflow but only get a validation accuracy near 0.
Questions
Did I PreProcess my data rightly? Do I need hot-encoding or gather more samples? Is another algorithm mabye more effective (Tree?)?
Thanks in advance...
python-3.x - 如果数据预处理语句不起作用。请任何人都可以解决这个问题
我正在为某些任务预处理带有开始日期(代码中的“sd”)和结束日期(代码中的“ed”)的原始 excel 文件,并且我为新列表/列编写了一个 if 代码,它显示了每个任务的状态任务。即未开始,正在进行和完成。显而易见的条件是如果 sd 为空则任务未启动,如果 sd 存在但 ed 为空则任务继续进行,如果 sd 和 ed 都存在则任务完成。但只是完成作品的条件。我在 python 3.8 中使用 spyder