问题标签 [pandasql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
65 浏览

python - 需要在保持熊猫或/和python中的顺序的同时对字母序列进行分组

我有一个数据框:

有人回答了类似的问题。但使用oracle sql。我只有 pandas 和 python 可用。

分组行使用 sql保持值的顺序

我怎样才能获得输出。

0 投票
2 回答
4015 浏览

python - 外连接 Pandas 数据框

我正在尝试外部加入(在 df1 上)两个熊猫数据框。以下是示例数据框:

我试图使用 pandasql 模块,但是我不确定如何处理在 df1 中加入索引 1 和在 df2 中加入索引 2 的情况,因为团队的顺序颠倒了。通过pandasql模块,如果团队顺序相反,我不确定如何在组合数据框中切换团队平均值。

我将不胜感激这方面的任何帮助。

0 投票
1 回答
13615 浏览

python - 熊猫使用日期和另一列在两列上合并

您好,尝试合并两个数据框并按日期和 upc 汇总访问计数。

  1. 交易数据(日期、upc、销售) 200k 行 x 3 列
  2. 访问次数(日期、upc、访问次数)200 万+ 行 x 3 列

我试过这个

结果:合并执行,但不按日期或 upc 求和

我也试过

那没有用。

那没有用。

我也试过

我一直返回一条错误消息。根据错误消息,我似乎需要将数据框中的日期之一转换为 pandas dtype。

我进行了更改并返回了与第一次尝试相同的结果。合并有效,但没有总结结果。我尝试将两个数据框中的两个日期都转换为astype(str),但没有成功。我知道两个日期是否具有相同的日期格式 dtype 或者astype(str)我返回内存错误消息。合并会失败。

我仅使用 upc 成功合并,但这在我的数据中产生了一个问题,我返回重复的访问号码,因为由于日期列而在事务中重复了 upc。

一天结束时,我需要的是类似于 excel 中的 sumif 函数的东西。

我需要通过汇总每个 upc 每天的总访问量并保持事务数据不变或在 sql 方面保持连接来组合这两个数据集

样本数据

想知道 pandasql 包是否是我需要使用的。任何帮助表示赞赏

0 投票
0 回答
638 浏览

python - 在 Python Pandas 中访问数据透视表的列

我正在使用 python pandas pivot。如何访问新数据框上的数据透视列?

错误:

文件“C:\Python27\lib\site-packages\pandas\core\indexing.py”,第 1231 行,在 _convert_to_indexer 中引发 KeyError('%s not in index' % objarr[mask]) KeyError: "['PLACEMENT_ID' ] 不在索引中"

但是,查询中存在“PLACEMENT_ID”。

0 投票
1 回答
690 浏览

python - 扫描字符串文字时 pandasql EOL 错误

我有下面的代码,我正在尝试使用 pandasql 来运行带有 sqldf 的 sql 查询。我正在做一些划分和聚合。当我使用 sqldf 在 r 中运行查询时,它运行得很好。我对 pandasql 完全陌生,我得到了下面的错误,任何人都可以看到我的问题并建议如何解决它?我还包括了一些示例数据。

代码:

错误:

样本数据:

0 投票
1 回答
758 浏览

python - Python:从 pandasql 中的 CASE 函数内部获取 DISTINCT 列值

我正在尝试使用 Python 编写查询pandasql。我的代码如下,

但这会产生以下错误,

打印 sqldf(q, locals()) 文件“C:\Python27\lib\site-packages\pandasql\sqldf.py”,第 156 行,在 sqldf 返回 PandaSQL(db_uri)(query, env) 文件“C:\Python27 \lib\site-packages\pandasql\sqldf.py",第 63 行,在 调用中 引发 PandaSQLException(ex) PandaSQLException: (sqlite3.OperationalError) 在“DISTINCT”附近:语法错误

但如果我使用WHEN 0.0 THEN a.user_id ELSE NULL它,它会起作用。正常的方式COUNT(DISTINCT a.user_id)也可以正常工作。

但我只想DISTINCT获取CASE. 有没有办法实现这一点来获得DISTINCT里面的计数值CASE

0 投票
1 回答
130 浏览

python - pandasql:如何选择非英文命名列?

Dataframe 有非英文命名的列,如何选择这样的列?

最后一行返回错误:

PandaSQLException: (sqlite3.OperationalError) 在“доставки”附近:语法错误 [SQL: 'select Машина, min(Дата доставки) from days_ans group by 1']

PS 不指定列 - 应按以下方式工作:

我认为问题与其中有空格的列有关

0 投票
1 回答
147 浏览

mysql - 使用 panda 库执行 SQL 查询

我有一个像这样的 SQL 查询“选择 (ShipMode),(count(OrderID)*100/8994) 作为来自 friends.sampledatapanda 的分数(我有一个 CSV 文件,所以忽略这个)按 1 分组”。我想在 Jupyter 上使用 panda 库执行相同的操作。请帮忙。

0 投票
1 回答
724 浏览

python - pandasql::sqldf 没有捕获循环变量

我试图用 pandasql::sqldf 循环一个列表,但是这个 sqldf 似乎没有捕获循环变量。以下是我的问题的程式化大纲:

上面的程序给出了以下错误:

PandaSQLException: (sqlite3.OperationalError) no such column: i [SQL: 'select CONTACT_WID, sum(FreqGamePlay) as FGP from FreqGamePlay where TITLE_NOMIN_DT > i group by CONTACT_WID;']

但如果我手动硬编码日期,它可以正常工作:

但是上面的效率不高,因为实际程序的日期列表要大得多。任何建议表示赞赏,谢谢

0 投票
0 回答
136 浏览

python - 如何使用 PandaSQL 优化查询?

对于业务,我需要使用 PandaSQL 检索数据。我在代码中使用了大约 4 个查询,我的基本数据大小为 2,000,000。

我在我的代码中使用以下类型的查询。请注意,变量是虚拟变量,但语法相同。

目前,代码执行需要 5 分 30 秒。如何在 Python 3.x 中使用 PandaSQL 使其运行更快?