问题标签 [data-preprocessing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
15 浏览

python - 用于异常检测的集群训练

根据类似行为对我的数据进行聚类后,我现在正在努力检测每个聚类中的异常情况。数据是pandas.Dataframe()s 的列表,如下所示:

如您所见,数据帧由时间戳和某些值(这些值已经标准化)组成。作为预处理步骤,我正在重塑数据:

聚类过程发生TimeSeriesKMeans在数据上train_data

这一步至关重要,因为数据具有非常不同的行为,我的目标是基于此集群数据创建多个模型,以使用隔离森林检测每个时间序列(在每个集群中)的异常。因此,我正在创建一个按集群排序的数据框列表。

我得到的是完整的数组,它们被检测为异常值。但我更想要一个“经典隔离森林”,这意味着检测集群中每个数组的异常点。我究竟做错了什么?我的预处理不正确还是我必须以不同的方式提供模型?

TLDR:如何按集群训练单个模型,而不是检测每个集群的异常阵列,而是检测每个阵列的异常点?

0 投票
1 回答
46 浏览

r - 仅将缺失的信息解释为虚拟变量 R

在下面的示例数据框中(原始由数千行和数百列组成),Date1 和 Date2 中的某些值是未知的,它们不需要相关:

我想避免插补,因为它会产生许多人工日期值。此外,为了避免为列中的每个日期值创建虚拟变量(它们以千为单位,并且数据框的大小将迅速增加),创建两列是否有意义,其中 1 是所有日期的条目第二列中不是未知的值,未知值为 0,反之亦然,如下所示:

这使

在此处输入图像描述

在分析中使用 Date11、Date12、Date21 和 Date22 并删除 Date1 和 Date2 是否有意义?我相信这是错误的。例如,如果在数据预处理期间必须处理因子列中的一个级别以生成虚拟变量而不是所有条目(以避免额外的列)以避免信息丢失,那么如何处理这样的问题?

0 投票
2 回答
57 浏览

python - 从具有多个条件的当前 DataFrame 创建一个 DataFrame

我有一个如下所示的数据框。

注意:如果有帮助,“时间”列采用日期时间格式。

在此处输入图像描述

我想创建一个新的数据框,其中“参与者”的多个值合并为 1 行,并创建多行时间和结果。所需的最终结果如下所示。

在此处输入图像描述 任何帮助是极大的赞赏。谢谢。

0 投票
1 回答
20 浏览

python - Why does the func parameter of TransformedTargetRegressor need to return 2-dimensional array and not 1-dimensional?

In the documentation of TransformedTargetRegressor, it is mentioned that the parameter func needs to return a 2-dimensional array. Should it not be a 1-dimensional array instead? The target y mostly has the shape (n_samples,) which is 1-dimensional.

The below code, where target y and the output of func is 1-dimensional, runs properly -

0 投票
1 回答
112 浏览

javascript - JavaScript 中的文本到矩阵

我如何将文本转换为矩阵,就像 python 开发人员使用张量流文本预处理将文本转换为矩阵一样。

甚至为任何可以做到这一点但仍然找不到的实用程序尝试了“自然”、“丹诺夫”和“张量流”。

它是如何在 python (tfidf) 中完成的 来源:text_to_matrix

0 投票
1 回答
23 浏览

python - 编码分类列时“输入包含NaN”的解决方案是什么?

每当我在我的 jupyter 笔记本中运行时,我总是得到Input contains NaN 。encoder.transform它在 google-colab 上运行良好。

0 投票
1 回答
137 浏览

machine-learning - 如何将熊猫多列文本转换为张量?

嗨,我正在研究IBM共享的关键点分析任务,这是链接。在给定的数据集中有不止一行文本,任何人都可以告诉我如何将文本列转换为张量并再次将它们分配到同一个数据框中,因为那里还有其他数据列。在此处输入图像描述

问题

在这里,我面临一个问题,我以前从未见过这种数据,比如有多个文本列,如何将所有这些列转换为张量,然后应用模型。大多数时候数据是这样的:一个文本列,其他列是标签,例如:电影评论,有毒评论分类。

0 投票
1 回答
59 浏览

r - 缩放混合数据帧的训练和测试数据集中的所有数字列

下面的代码对训练集和测试集进行缩放。由于 Col6 和 Col7 不得缩放,因此将它们从原始数据中删除以缩放训练集和测试集:

工作,但从数据框中删除 Col6 和 Col7。

和,

引发以下错误:

有没有一种简单的方法可以在 Train_Set 和 Test_Set 数据集中保留 Col6 和 Col7,但不能对其进行缩放?将列 Col6 和 Col7 提取为单独的数据帧的冗长方法,使用顶部的代码并最终 cbind Col6 和 Col7 数据帧。

0 投票
1 回答
50 浏览

python - 尝试导入 Spacy 时出现属性错误

当我尝试导入 spacy 时遇到一些问题。我下载了软件包并拥有最新版本,但仍然出现此错误,我找不到任何答案。也许这里有人有这个问题,可以在这里帮助我。

这是我执行“import spacy”时的错误:


() ----> 1 import spacy 中的 AttributeError Traceback (最近一次调用最后一次)

~\Anaconda3\lib\site-packages\spacy_ init _.py in () 8 9 # 这些是作为 API 的一部分导入的 ---> 10 fromthinc.neural.util import prefer_gpu, require_gpu 11 12 from . 进口管道

~\Anaconda3\lib\site-packages\thinc_ init _.py in () 6 7 from .about import name , version # noqa: F401 ----> 8 from ._registry import registry

~\Anaconda3\lib\site-packages\thinc_registry.py in () ----> 1 import catalog 2 3 4 class registry(object): 5 optimizers = catalogue.create("thinc", "optimizers", entry_points=真的)

~\Anaconda3\lib\site-packages\catalogue.py in () 16 17 # 出于性能原因只调用一次 ---> 18 AVAILABLE_ENTRY_POINTS = importlib_metadata.entry_points() 19 20 # 这是函数注册的地方

AttributeError:模块“importlib_metadata”没有属性“entry_points”

提前致谢!

0 投票
0 回答
365 浏览

python - raise KeyError(key) from err KeyError: 'diagnosis' 请帮助我为什么会得到 KeyError?

上述异常是以下异常的直接原因:

代码: