问题标签 [eda]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

83 问题

0 投票

0 回答

24 浏览

python - 多元相关滤波器

如何识别两个分类特征与目标变量之间的关联之间的相关性。

例如：

如果三个特征与我 2 个分类变量和 1 个目标变量在使用卡方检验识别每个特征与目标变量的相关性时，我无法找到强关系。所以我想使用这两个特征的组合并检查是否与目标变量存在相关性，但我很困惑我们是否可以对这种情况使用卡方检验或者可以使用其他一些方法？

例如：

但我不确定这是否是正确的方法

python stat chi-squared eda

2021-01-11T20:09:30.450

0 投票

1 回答

87 浏览

python - KeyError：“[Index(['5', '22', '25', '12',..],\n dtype='object', length=610)] 均不在 [columns] 中”

试图剥离某个部分但抛出错误“列中没有索引”

数据集：

代码片段：

错误：

错误：

python eda

2021-02-05T08:00:51.363

0 投票

1 回答

115 浏览

apache-kafka - On demand horizontally scaling event driven architectures

What is the best way to horizontally scale an event driven architecture when load increases?

Many people suggest using Kakfa as the message queue source for EDA however Kafka only allows one consumer in a consumer group per partition. Repartitioning especially during heavy load situations can be costly and time consuming.
Having many consumers in a consumer group that take work and acknowledge quickly would give some horizontal scaling but now message order needs to be considered as well as load completion.
With RabbitMQ queues can be created and deleted on the fly however that would require an additional orchestrator to help manage and distribute load.

Also none of this addresses the load balancing problem that comes with the territory.

Any help would be appreciated. Thanks

apache-kafka rabbitmq event-driven horizontal-scaling eda

2021-02-09T05:15:19.047

0 投票

1 回答

48 浏览

python-3.x - 如何在python中处理未知大小的数值的多值行？

我实际上是在尝试通过最近的 Hackathon LTFS(Bank Data)解决分析问题，但我遇到了一些独特的问题，实际上并不太独特。让我解释

Problem

Bureau数据集中名为REPORTED DATE - HIST, CUR BAL - HIST, AMT OVERDUE-的列很少 HIST & AMT PAID - HIST,,

这是数据集的一部分（它不是原始数据，因为行大小很大）

Seeking for a better option, if possible

以前当我解决这类问题时，它是 Movielens 项目的流派，我使用了使用虚拟列的概念，它在那里工作，因为流派列中没有太多的值，而且一些值在许多行中重复值，所以这很容易。但是这里似乎很难，因为有两个原因

1st reason因为它包含很多价值，同时它可能不包含任何价值

2nd reason如何为每个唯一值创建列或像 Movielens 流派案例中的行

python-3.x pandas dataframe data-science eda

2021-02-14T10:56:01.347

0 投票

1 回答

195 浏览

python - 正则表达式删除多行字符串中的重复短语

问题是什么：

我有一个多行文本，例如：

行号在这里只是为了更好地可视化，它们不是文本本身的一部分。

我试过的：

我尝试了两种不同的正则表达式（标志总是：i g和m）：

见这里：regexr.com/5nklg

和

见这里：regexr.com/5nkla

它们都产生不同的输出，都很好，但并不完美。

我想达到的目标：

删除文本中所有重复的短语，但保留一个。所以这里例如保留第一个“这是我的应用程序的测试字符串”。从第 1 行开始，匹配第 2-9 行的相同短语并保留第 10 行。

如果我可以保留最后一个而不是第一个匹配的短语，它也会对我有用。所以这里将匹配第 1 - 8 行，保留 9 和 10。

有没有办法用正则表达式做到这一点？

仅供参考：稍后我将在 python 中使用正则表达式来删除重复项：

编辑： “短语”意味着让我们说 3 个或更多单词。所以匹配任何超过 2 个单词的重复项。所以第一个子之后的预期输出将是：

提前致谢！

python regex eda

2021-03-02T10:41:08.490

0 投票

1 回答

55 浏览

python - 如何更改多个特定列的 dtype

当我还需要更改时，如何将多列更改为浮点数。

DF 看起来像这样，除了我删除了所有 NAN 值，因为我不需要这些行。

这是数据类型

这就是我现在做的方式，但这需要很长时间。我知道你可以做一个循环，但我不明白怎么做。

python pandas numpy eda

2021-03-05T07:47:46.850

0 投票

1 回答

45 浏览

python - 如何以及何时处理数据集中的异常值（一般策略）

我偶然发现了以下问题：

我正在从事数据科学的初学者项目。我得到了测试和训练数据拆分，现在我正在分析每个特征，然后将其添加到离散连续变量的数据框或连续变量的数据框。这样做我遇到了一个带有大异常值的特征。如果我要删除它们，我已经添加到子数据框中的其他功能将具有比此更多的列条目。

我应该找到一种策略来用“更好”的值覆盖异常值，还是应该重新考虑我的策略，在一开始就为两种类型的变量拆分训练数据？我不认为摆脱真实 train_data 中的异常行会有用......

python pandas outliers eda

2021-03-25T13:55:00.803

0 投票

2 回答

100 浏览

python - 如何在 pandas 数据框中映射两列值（位置 ID、位置名称）并发现数据框中的错误？

我的数据集有两列名称 location-id 和 location-name。每个位置名称都有一个唯一的位置 ID。

由于每个位置都有一个唯一的 id，因此 location-id 列和 location-name 列中的唯一值需要相等。但是 df 中似乎有一个错误，我的 location-id 有 1863 个唯一值，而 location-name 有 1800 个唯一值。

有没有办法发现错误发生在哪些条目中？

我想了一个办法。遍历这两列并创建一个包含键值对的字典。

对于每个样本，获取 location-id，检查它是否已经是字典中的键。如果它已经存在，请检查与其相关的值。如果该值 == 当前样本的位置 ID，则转到下一个样本。如果值和位置名称不同，则将该新名称作为另一个值添加到同一键。遍历完整数据集后，获取具有多个值的键值对，以发现数据集中的错误。

有没有更有效的方法来做到这一点？

python pandas dataframe data-science eda

user15962699

2021-07-02T19:56:13.110

0 投票

2 回答

71 浏览

events - 事件驱动架构是否应该针对所有数据和分析平台？

例如，

您有一个 IT 资产，其中包含来自多个系统的批处理和实时数据源，例如 ERP、项目管理、资产、网站、监控等。
目的是将数据源集成到云环境中（不可知）。
需要对所有数据源的组合进行报告和分析。
不可避免地，一些源系统不能流式传输，因此需要批量加载。
根据摄取的数据执行功能/更改/更新的潜在用例。

给定一个创建面向未来的平台的指导，在架构上，您会如何设计它？

events architecture cloud analytics eda

2021-07-20T10:54:48.503

0 投票

0 回答

30 浏览

python - 显示数据集时出现无效的起始字节错误

这是我输入的代码，但出现错误，如下所示。我应该怎么做才能显示数据集？

python dataset eda

2021-08-15T03:56:59.417

1 2 3 4 5 6 7 8 9 10