“data-preprocessing”的相关标签问题

0 投票

1 回答

1156 浏览

python - 如何使用 Numpy 数组解决 Scikit 学习预处理管道错误？

我正在使用 scikit-learn 构建一个分类器来预测两个句子是否是释义（例如释义：爱因斯坦有多高与阿尔伯特爱因斯坦的长度是多少）。

我的数据由 2 个带有字符串（短语对）的列和 1 个带有 0 和 1 的目标列组成（= 没有释义，释义）。我想尝试不同的算法。

我希望下面的最后一行代码适合模型。相反，预处理管道不断产生我无法解决的错误：“AttributeError：'numpy.ndarray'对象没有属性'lower'。”

代码如下，我已经隔离了显示的最后一行中发生的错误（为简洁起见，我排除了其余部分）。我怀疑这是因为目标列包含 0 和 1，不能转为小写。

我已经在stackoverflow上尝试过类似问题的答案，但到目前为止还没有运气。

你怎么能解决这个问题？

======

2017-09-17T13:23:42.847

0 投票

2 回答

1450 浏览

python-3.x - 如何使用 Openpyxl 访问 Onedrive 上的 Excel 文件

我想用 Openpyxl（Python）打开一个 Excel 文件（在 Onedrive 上）。我收到错误尝试这个：

OSError: [Errno 22] Invalid argument: 'https://d.docs.live.net/dd10...

python-3.x excel openpyxl data-preprocessing

2018-12-03T01:52:43.027

0 投票

2 回答

66 浏览

java - 带有 (String,ArrayList) 的 TreeMap)

我正在尝试读取输入文件。输入文件的每个值都插入到 TreeMap 中

如果单词不存在：将单词插入树形图并将单词与 ArrayList(docId, Count) 关联。
如果 Word 存在于 TreeMap 中，则检查当前 DocID 是否在 ArrayList 中匹配，然后增加计数。

对于 ArrayList，我创建了另一个类，如下所示：

之后，我尝试将 TreeMap 作为 <DocID - Count> 打印到文本文件中，不确定我在这里做错了什么，但我得到的输出如下：

想知道是否有人可以指导我做错了什么，如果我的方法不正确，我应该怎么做？

java arraylist treemap stemming data-preprocessing

2020-12-22T09:30:31.717

0 投票

1 回答

75 浏览

python - 数据的清洗和矢量化

我不知道如何清理和矢量化数据。

以下数据在我的数据框中：

但是，每当我尝试使用以下代码清理数据时

我收到此错误KeyError: 'Comment' 这是它的完整堆栈跟踪

python pandas dataframe data-science data-preprocessing

2020-12-24T17:05:46.217

0 投票

2 回答

121 浏览

r - 如何在 R 中创建具有分组事务的新数据框？

我正在尝试使用在交易中购买的物品的现有数据框在 R 中创建一个新的数据框，如下所示：

数据的 dput 输出：

正如您在示例中看到的那样，这些行是由于购买的每个单独的产品，而不是交易本身（因此交易 2 是第 2 行和第 3 行）。

我想创建一个新表，其中行是不同的事务（1、2、3 等），不同的列是分类的（面包 = 0、1），所以我可以执行先验分析。

知道如何将不同的交易组合在一起，然后创建这些新列吗？

r categorical-data data-wrangling data-preprocessing

2021-01-05T14:14:46.020

0 投票

1 回答

261 浏览

pandas - 如何使用 MultiLabelBinarizer 进行多标签分类？

我正在尝试进行多标签分类。但我真的被困在数据预处理上。我的目标数据在一个单独的文件中。目标数据如下所示

我正在尝试使用 MultiLabelBinarizer 来预处理数据。最后，我希望它看起来像这样 -

ID	数据	C＃	表格	类型转换	十进制
1	1	0	0	0	0
4	0	1	1	1	1

这是我正在使用的代码

这是我得到的输出。

我究竟做错了什么？

pandas multilabel-classification data-preprocessing

2021-01-06T17:48:02.237

0 投票

1 回答

193 浏览

python - 从 keras 中的 TimeseriesGenerator 获取实际使用的目标，而不是输入的目标

假设我使用 keras 创建了以下时间序列生成器：

由于它具有设置start_index=5，它将跳过前 5 个数据点，因此gen仅包含这些实际可用的数据：

我想要的是一种简单的方法来提取所有实际可用的目标/标签/基本事实，所以像

但我最接近的是

它只给出输入目标，而不是真正使用的目标。那么，我怎样才能从生成器中取出实际可用的目标呢？谢谢

python tensorflow keras data-preprocessing

2021-01-07T15:15:45.650

0 投票

1 回答

116 浏览

scikit-learn - 为什么 ColumnTransformer 使用相同的代码但不同的 .csv 文件产生不同的输出？

我正在努力完成这门课程，希望能够在春季之前完成这种入门级别的课程。这是我在这个令人难以置信的资源上的第一篇文章，并将尽我所能遵守发布格式。作为加强我的学习和致力于长期记忆的一种潜在方式，我正在我自己的数据集上尝试相同的事情，该数据集包含超过 500 个条目，其中包含与我更相关的数据，而不是虚拟数据。

我正在学习数据预处理阶段，如果我理解正确的话，您可以在其中填写缺失值并将列分成各自的 X 和 Y，以便稍后输入模型。

所以在课程示例中，它是左上角的国家数据集。然后左下角是我自己的数据数据库，我在我玩的多人游戏中保存了大约一年。它有 100 个左右的角色，您可以从 5 种不同的类别角色之间进行选择。

课程数据集（左上）个人数据集（左下个人数据集列转换结果

产生的不同输出是怎么回事，唯一的区别是数据集（.csv 文件）？该课程的数据集看起来不错；第一列国家（文本类别）在输出中变成二进制向量，不是吗？为什么我的数据集上的输出省略了列，并产生了这些看起来很奇怪的元组，后面跟着一个看起来像随机数的东西？我尝试删除 np.array 函数，尝试在每个级别打印每个输出，但无法查看导致差异的原因。我希望在我的数据集上它将字符的名称转换为二进制向量（1s/0s 的组合？），以便计算机可以理解差异并将它们映射到适当的结果。相反，我得到了我以前从未见过的奇怪的输出。

编辑：事实证明，这些奇怪的数字组合就是所谓的“稀疏矩阵”。必须从产生 csr_array 的 type() 开始做一些研究。如果我理解我正确阅读的内容，那么里面的所有内容都会占用一列，所以我只是使用 [:] 尝试了所有行/列，我没有收到错误。

非常感谢您的时间和帮助。

编辑：多亏了这个线程，我才能完成这个数据预处理/导入/清理/阶段练习，使用我自己的约 550 行数据集进行特征缩放。

scikit-learn data-science data-preprocessing

2021-01-12T04:04:09.950

0 投票

2 回答

58 浏览

tensorflow - Tensorflow Model PreProcess Time Data

I got information where and when a cab customer entered his vehicle. Now I want to predict in which street he wants to drive. My dataset is looking like this:

Example

Day, Hour, Minute, Entrance, Destination (Label)

Monday, 10, 45, ExampleStreet, StackOverflowCorner (Not PreProcessed)

0, 10, 45, 0, 1 (PreProcessed)

Converted like this:

Now I PreProcessed my Dataset like this:

Day -> Number from 0-6 (0 Monday, 1 Tuesday ...)

Hour -> European format from 0-24

Minute -> No preprocess

Entrance -> I used LabelEncoder (0 ExampleStreet, 1 ExampleCorner ...)

Destination -> Same like Entrance with Label Encoder

I got 98 possible destinations and the same amount of entrances and around 700 samples. I already used Tensorflow but only get a validation accuracy near 0.

Questions

Did I PreProcess my data rightly? Do I need hot-encoding or gather more samples? Is another algorithm mabye more effective (Tree?)?

Thanks in advance...

tensorflow keras data-preprocessing

2021-01-15T09:23:39.650

0 投票

0 回答

25 浏览

python-3.x - 如果数据预处理语句不起作用。请任何人都可以解决这个问题

我正在为某些任务预处理带有开始日期（代码中的“sd”）和结束日期（代码中的“ed”）的原始 excel 文件，并且我为新列表/列编写了一个 if 代码，它显示了每个任务的状态任务。即未开始，正在进行和完成。显而易见的条件是如果 sd 为空则任务未启动，如果 sd 存在但 ed 为空则任务继续进行，如果 sd 和 ed 都存在则任务完成。但只是完成作品的条件。我在 python 3.8 中使用 spyder

python-3.x loops if-statement debugging data-preprocessing

2021-01-16T16:12:17.540

问题标签 [data-preprocessing]

Example

Converted like this:

Questions

Reference