“pandasql”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

65 浏览

python - 需要在保持熊猫或/和python中的顺序的同时对字母序列进行分组

我有一个数据框：

有人回答了类似的问题。但使用oracle sql。我只有 pandas 和 python 可用。

分组行使用 sql 保持值的顺序

我怎样才能获得输出。

2017-12-10T11:03:18.213

0 投票

2 回答

4015 浏览

python - 外连接 Pandas 数据框

我正在尝试外部加入（在 df1 上）两个熊猫数据框。以下是示例数据框：

我试图使用 pandasql 模块，但是我不确定如何处理在 df1 中加入索引 1 和在 df2 中加入索引 2 的情况，因为团队的顺序颠倒了。通过pandasql模块，如果团队顺序相反，我不确定如何在组合数据框中切换团队平均值。

我将不胜感激这方面的任何帮助。

python pandas pandasql

2017-12-26T16:14:33.627

0 投票

1 回答

13615 浏览

python - 熊猫使用日期和另一列在两列上合并

您好，尝试合并两个数据框并按日期和 upc 汇总访问计数。

交易数据（日期、upc、销售） 200k 行 x 3 列
访问次数（日期、upc、访问次数）200 万+ 行 x 3 列

我试过这个

结果：合并执行，但不按日期或 upc 求和

我也试过

那没有用。

我也试过

我一直返回一条错误消息。根据错误消息，我似乎需要将数据框中的日期之一转换为 pandas dtype。

我进行了更改并返回了与第一次尝试相同的结果。合并有效，但没有总结结果。我尝试将两个数据框中的两个日期都转换为astype(str)，但没有成功。我知道两个日期是否具有相同的日期格式 dtype 或者astype(str)我返回内存错误消息。合并会失败。

我仅使用 upc 成功合并，但这在我的数据中产生了一个问题，我返回重复的访问号码，因为由于日期列而在事务中重复了 upc。

一天结束时，我需要的是类似于 excel 中的 sumif 函数的东西。

我需要通过汇总每个 upc 每天的总访问量并保持事务数据不变或在 sql 方面保持连接来组合这两个数据集

样本数据

想知道 pandasql 包是否是我需要使用的。任何帮助表示赞赏

python pandas pandasql

2017-12-30T06:00:48.137

0 投票

0 回答

638 浏览

python - 在 Python Pandas 中访问数据透视表的列

我正在使用 python pandas pivot。如何访问新数据框上的数据透视列？

错误：

文件“C:\Python27\lib\site-packages\pandas\core\indexing.py”，第 1231 行，在 _convert_to_indexer 中引发 KeyError('%s not in index' % objarr[mask]) KeyError: "['PLACEMENT_ID' ] 不在索引中"

但是，查询中存在“PLACEMENT_ID”。

python pandas data-science pandasql

2018-01-01T20:48:31.327

0 投票

1 回答

690 浏览

python - 扫描字符串文字时 pandasql EOL 错误

我有下面的代码，我正在尝试使用 pandasql 来运行带有 sqldf 的 sql 查询。我正在做一些划分和聚合。当我使用 sqldf 在 r 中运行查询时，它运行得很好。我对 pandasql 完全陌生，我得到了下面的错误，任何人都可以看到我的问题并建议如何解决它？我还包括了一些示例数据。

代码：

错误：

样本数据：

python pandasql

2018-01-18T21:45:37.943

0 投票

1 回答

758 浏览

python - Python：从 pandasql 中的 CASE 函数内部获取 DISTINCT 列值

我正在尝试使用 Python 编写查询pandasql。我的代码如下，

但这会产生以下错误，

打印 sqldf(q, locals()) 文件“C:\Python27\lib\site-packages\pandasql\sqldf.py”，第 156 行，在 sqldf 返回 PandaSQL(db_uri)(query, env) 文件“C:\Python27 \lib\site-packages\pandasql\sqldf.py"，第 63 行，在调用中引发 PandaSQLException(ex) PandaSQLException: (sqlite3.OperationalError) 在“DISTINCT”附近：语法错误

但如果我使用WHEN 0.0 THEN a.user_id ELSE NULL它，它会起作用。正常的方式COUNT(DISTINCT a.user_id)也可以正常工作。

但我只想DISTINCT获取CASE. 有没有办法实现这一点来获得DISTINCT里面的计数值CASE？

python pandas sqlite pandasql

2018-01-23T16:04:03.050

0 投票

1 回答

130 浏览

python - pandasql：如何选择非英文命名列？

Dataframe 有非英文命名的列，如何选择这样的列？

最后一行返回错误：

PandaSQLException: (sqlite3.OperationalError) 在“доставки”附近：语法错误 [SQL: 'select Машина, min(Дата доставки) from days_ans group by 1']

PS 不指定列 - 应按以下方式工作：

我认为问题与其中有空格的列有关

python python-3.x pandas pandasql

2018-02-05T12:29:26.077

0 投票

1 回答

147 浏览

mysql - 使用 panda 库执行 SQL 查询

我有一个像这样的 SQL 查询“选择 (ShipMode),(count(OrderID)*100/8994) 作为来自 friends.sampledatapanda 的分数（我有一个 CSV 文件，所以忽略这个）按 1 分组”。我想在 Jupyter 上使用 panda 库执行相同的操作。请帮忙。

mysql sql pandas pandas-groupby pandasql

2018-02-06T13:10:01.753

0 投票

1 回答

724 浏览

python - pandasql::sqldf 没有捕获循环变量

我试图用 pandasql::sqldf 循环一个列表，但是这个 sqldf 似乎没有捕获循环变量。以下是我的问题的程式化大纲：

上面的程序给出了以下错误：

PandaSQLException: (sqlite3.OperationalError) no such column: i [SQL: 'select CONTACT_WID, sum(FreqGamePlay) as FGP from FreqGamePlay where TITLE_NOMIN_DT > i group by CONTACT_WID;']

但如果我手动硬编码日期，它可以正常工作：

但是上面的效率不高，因为实际程序的日期列表要大得多。任何建议表示赞赏，谢谢

python sql pandas pandasql

2018-02-08T13:17:24.957

0 投票

0 回答

136 浏览

python - 如何使用 PandaSQL 优化查询？

对于业务，我需要使用 PandaSQL 检索数据。我在代码中使用了大约 4 个查询，我的基本数据大小为 2,000,000。

我在我的代码中使用以下类型的查询。请注意，变量是虚拟变量，但语法相同。

目前，代码执行需要 5 分 30 秒。如何在 Python 3.x 中使用 PandaSQL 使其运行更快？

python pandasql

2018-02-23T12:35:44.407

问题标签 [pandasql]

Reference