问题标签 [pandasql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2065 浏览

python - Pandas 中 LISTAGG 的等价物是什么?

我有以下聚合:

但在我的结果中我有这样的东西,但我想要所有 md5 的联合

我应该使用什么函数来代替 tolist()?

这些是我的 DataFrame 和 GroupBy:

some_data 具有以下格式:

0 投票
2 回答
774 浏览

python - Pandas: Aggregated and Group by - IDE: Pycharm

QQ - IDE: Pycharm - I am using the below Dataframe Sample format

I want to aggregated it in the below format

What i have done so far ?

Data import from pyodbc, passed to a pandas dataframe

I was Unable to get the desired output. is there something i need to be focusing on specifically while using pyodbc.

0 投票
2 回答
70 浏览

python - 按日期合计与个人有关的所有金额

我有这个数据框

在一个单独的 Dataframe 中,我需要分别为每个 person1 汇总每个唯一月份和年份的所有支出。然后,如果 person2 存在,我需要在 person1 和 person2 之间分配支出(在每个月的总和之后)。
输出应该是这样的:

0 投票
1 回答
997 浏览

python - 在 Python 中,使用 pandasql:查询返回“Empty DataFrame”

在 Python 中,使用 pandasql:查询返回“Empty DataFrame”

0 投票
2 回答
200 浏览

python - 如果 SQL 查询不带任何数据,则在 python 中退出循环

我是 Python 新手,并被赋予从不同数据库(MS SQl 和 Teradata)下载数据的任务。我的代码背后的逻辑如下: 1:代码从 excel 文件中为供应商获取数据。2:从该列表中,它遍历所有供应商并给出一个文档列表。3:然后我使用步骤 2 中下载的列表从 teradata 下载数据并附加到最​​终数据集中。

我的问题是,如果第二步中的数据为空白,则 while 循环将无限循环。有什么方法可以退出仍然执行其余的迭代?

预期的输出是将 fDataset 附加到代码的每次迭代中,但是当存在空白数据框(名为 DataSet )时,while 循环不会退出。

0 投票
1 回答
471 浏览

python - 如何根据 Pandas 中各行的文本相似性删除重复项

我有一个新闻标题数据集。我想根据与过去十天的标题的文本相似性删除重复或高度相似的标题。对于高度相似的标题,我想保留最早的。例如,我将"SECTION:BUSINESS; Business; Events; Pg.2"只保留2014-08-04一个。

我正在考虑根据日期和标题进行连接,其中日期在过去十天内,如下所示(在 SQL 语句中):

接下来,我可以计算相似度度量:

然后,对于每组(date, headline),如果任何行的相似度高于所选基准,我将删除整个组。最后,我折叠组。

不知道如何在 Pandas 中执行此操作。谢谢!

样本数据

0 投票
0 回答
384 浏览

python-3.x - 使用 Pandas to_sql 将数据帧写入 DB2 时出错

我正在尝试将数据从 pandas 数据帧加载到 IBM DB2 数据仓库环境。该表已经存在,所以我只是将行附加到表中。我已经构建了数据框来准确地镜像表中的每个字段。

我正在使用 Pandas to_sql 方法尝试将数据框数据获取到表中。我已经知道我已连接到数据库,但是当我运行代码时,我收到以下错误:

我在 pandas 文档中没有看到任何关于在使用 to_sql 时必须定义游标的内容。任何帮助,将不胜感激。

我尝试编写直接 sql insert 语句而不是使用 to_sql 但也无法使其正常工作。我已经有一个 to_csv 方法,我正在将数据帧写入 csv 文件,所以我想只使用相同的数据帧插入到表中。

我不能添加太多代码,因为这是一个公司项目,但该表有 15 列具有不同的数据类型(十进制、字符、时间戳)。

这是我的 to_sql 语句:

我希望表格中加载了行。我正在使用的测试文件有 880 行,所以我希望该表有 880 行。

这是我收到的整个错误消息:

0 投票
3 回答
533 浏览

pandas - 在熊猫中使用 groupby 或聚合的最佳方法

我有一个名为 clients 的表,我想显示有人根据用户 ID 注册或购买了多少次。

目标是有一个表格,显示基于用户 ID 的registration_complete 和购买的总和

这是我写的代码。不幸的是,并非所有列都显示

这是我用来根据用户 ID 计算注册和购买的表

我想要一些能给我总和的东西

0 投票
0 回答
32 浏览

pandas - 有没有办法在 Pandas 中合并 2 个数据框,以保持 df1 的值不变

试图合并熊猫“表A”和“表B”中的两个数据框。“表A”有200K行,表B“有310K行。一旦合并,我希望“表A”的行保持200K。我试试使用左、右、外合并,由于某种原因,表 A 的行不会停留在 200K `

0 投票
1 回答
119 浏览

python-3.x - Pandas 数据框转置列名而不是索引

在数据帧被转置后,我似乎无法弄清楚如何在 json 中显示实际的列名。请问有什么想法吗?

输出

预期产出