“eda”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

711 浏览

performance - 减少微服务架构中的多跳延迟（南北流量）（FE -> API Gateway --> BFF --> 服务层 --> 后端）

如何通过微服务架构中的南北流量强制多跳来减少延迟，即前端 -> API 网关 -> 前端的后端 -> 服务层 -> 后端

对于东西流量，异步通信，可以使用 kafka 等事件代理。

然而，对于南北流量，同步通信，由于不同组件之间的许多跃点导致的延迟没有得到解决。

请提供有关如何减少此类南北多跳流量延迟的任何提示？

2020-02-25T02:05:14.547

0 投票

1 回答

25 浏览

python - 组合来自两个不同数据帧的两列以删除 Pandas 中的缺失值

我正在研究泰坦尼克号数据集作为我的第一个项目。为了估算变量“年龄”的缺失值，我运行了一个线性回归模型。现在，我有 2 个数据框如下 -

上面给出的第二个数据帧具有我想要估算的年龄值来代替第一个数据帧的“NaN”值。两个数据框在列名“年龄”下都有这些数据。

我尝试运行以下代码来获取合并的 df -

但是输出会创建一个额外的“Age_y”列，而不是将其与旧列合并 -

有人可以帮我获得以下所需的输出。我在这方面做了很多折腾，但由于我是 Python 新手，所以我有点挣扎 -

python pandas merge eda

2020-05-24T11:00:50.157

0 投票

0 回答

36 浏览

r - 日期是否有任何（统计）指数检查频率？

我想知道如何检查频率。
频率是指，例如，在线用户多久进入在线频道。
所以，我想得到一些用户是否是重度用户的索引。

这是一个示例数据集。

Q1。那么，如何证明用户 B 是 20200101 和 20200108（忽略值列）
Q2 之间的重度用户。是否有任何指标来描述频率？
Q3。我曾经计算日期差异分布（平均值，标准）。是好方法吗？例如，以下..

r statistics data.table data-analysis eda

2020-06-02T07:48:42.453

0 投票

2 回答

386 浏览

python - 如果它是分类变量，如何替换空值？

当我注意到某些值具有“？”时，我试图为我的数据获取虚拟值作为他们的价值。由于我的数据中有很多行都有这些值，我根本无法删除它们。在这种情况下，我应该用什么替换它们？只是采取类别的模式会有所帮助吗？另外，我试图替换 ? 值与模式。

df1 = df1[df1.workclass == '?'].replace('?',"Private")

但我现在得到一张空桌子。

在此处输入图像描述

python data-science eda

2020-06-10T03:55:20.607

0 投票

1 回答

12 浏览

plot - 当应该显示为一个条时，计数图将相同的名称值显示为不同的条。我应该如何解决这个问题？

我正在使用如下颜色的数据框：

然而，当使用countplot() 结果图时，结果是这样的......

请注意，“黑色”颜色不是一个条，而是多个条。我怎么解决这个问题？

plot graph data-science eda

2020-06-14T08:26:14.367

0 投票

2 回答

413 浏览

matplotlib - sns.regplot 在回归线 y 轴上设置限制

对于给定的 seaborn 图，我们如何将回归线 y 轴限制在 5 以内。
评级永远不会超过 5。有没有办法截断/剪辑它？sns.regplot(x="评论", y="评级", 数据=df);

matplotlib data-science seaborn eda

2020-07-30T20:26:29.403

0 投票

1 回答

135 浏览

events - 事件驱动架构：重新处理死信队列中的事件导致域模型状态不正确

我目前在微服务中使用事件驱动架构。我有一个与基于事件的系统有关的问题：

例如，假设我有一个对 ProfileChangeEvent 做出反应的 Person 模型（包含 Person 需要更新的名称）。现在我在步骤中有以下情况：

将配置文件名称更改为“Mike”并使用 name='Mike' 发布 ProfileChangeEvent
再次将配置文件名称更改为 'Micheal' 并使用 name='Michael' 发布 ProfileChangeEvent
这两个事件以正确的顺序到达，但第一个事件处理失败，事件最终进入死信队列（DLQ），最终人的名字是“迈克尔”，因为第二个事件消费成功。
一段时间后，我注意到 DLQ 中的第一个失败事件并重新发布它并且消费成功，现在人的名字是“迈克”，这是不正确的，因为“迈克尔”实际上是最近更新的值。

请提供有关如何处理此类情况的建议？

events dead-letter eda

2020-08-05T09:34:19.613

0 投票

1 回答

59 浏览

python - Adding empty columns to python DataFrame

I am trying to add couple of empty columns to a python Dataframe , the columns to be added are in the form of list, how could I do it

What I thought of doing: I cant manually add each column one at a time to dataframe as in my usecase we will be adding 1000+ empty columns, I tried of running through a loop but it dint work out

python dataframe numpy-ndarray data-science-experience eda

2020-09-04T19:03:50.533

0 投票

1 回答

44 浏览

python - 如何仅过滤那些包含给定标签列表中的任何值的行

数据框

我有这个数据框，其中包含用户 ID 和与用户相关的标签。什么是仅过滤掉具有包含此列表中任何一个标签的行的最佳方法。data_science = ['python', 'r', 'matlab', 'sas', 'excel', 'sql'] 我在 pandas 中尝试过以下代码，它确实在一定程度上过滤掉了，但它给出的标签有任何类似于列表的标签。例如，对于 sql，它会抛出 sql-server。你能建议一个更好的方法吗？

python pandas dataframe data-analysis eda

2020-11-13T02:46:37.960

0 投票

1 回答

34 浏览

python - 在 Pandas 中替换列表类型列中的重复项

背景信息：我有一个数据框df，其中包含多个列，其中焦点是名为“流派”的列

目标：

可以在这张图片中看到问题，有些条目发现重复，例如“[戏剧，浪漫]”和“[浪漫，戏剧]”是同一件事

现在的目标是以编程方式删除/替换重复项，以便将变体替换为其等价形式。

例子：

“[戏剧，浪漫]”和“[浪漫，戏剧]”

现在 [Romance, Drama] 被 [Drama, Romance] 替换，反之亦然，而不是完全删除，我们只是替换列表的内容

输出 - 在替换重复的 '[Drama, Romance]' 和 '[Romance, Drama]' 之前

预期输出 - 替换重复的“[戏剧，浪漫]”后

过滤df列“流派”以仅包含列表条目不超过 3 个流派的流派，例如删除任何超过 3 个流派的行。“流派”列中可接受的结果示例：

[浪漫，戏剧，喜剧]
【爱情、剧情】
[戏剧]

我尝试了以下方法：

上面的代码有效，但它是针对单个重复项手动完成的，所以我想找到一种方法来为在 'genres' 列中找到的所有重复项进行编码df

python pandas list eda

2021-01-07T02:29:18.040

问题标签 [eda]

Reference