问题标签 [data-munging]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHP:如何匹配文档中所有出现的正则表达式模式
我正在对可能(或可能不 - 视情况而定)在其内容中出现正则表达式模式的文档进行一些数据处理。
我想编写一个 PHP 函数来处理文档 - 该函数的工作是返回文档中所有匹配模式声音的数组(如果它们存在),或者如果没有找到匹配项则返回一个空数组.
我确信这涉及使用 PHP 函数preg_match_all,但是,我不明白 preg_match_all 返回的数组的格式。我只想返回匹配的字符串的一维(即非嵌套数组),如下所示:
python - 如何将 python datetime.datetime 转换为 excel 序列号
我需要将日期转换为我正在编写的数据处理脚本的 Excel 序列号。通过在我的 OpenOffice Calc 工作簿中处理日期,我能够推断出 '1-Jan 1899 00:00:00' 映射到数字零。
我编写了以下函数将 python 日期时间对象转换为 Excel 序列号:
但是,当我尝试一些示例日期时,这些数字与我在 Excel(以及 OpenOffice Calc)中将日期格式化为数字时得到的数字不同。例如,测试“2009-03-20”在 Python 中给出 3478032000,而 excel 将序列号呈现为 39892。
上面的公式有什么问题?
*注意:我使用的是 Python 2.6.3,因此无法访问 datetime.total_seconds()
r - 使用 RGoogleDocs 时,有没有办法将带有字符串的列读取为字符串
我经常使用 RGoogleDocs。我用它来读取私有数据或只与少数人共享的数据。我知道read.table
并read.csv
允许使用stringsAsFactors=FALSE
.
我想在 RGoogleDocs 中做类似的事情。这是我的典型代码
这几乎总是将字符值读取为因素。我最近一直在使用 data.table 并且一些因素似乎使我的数据在 data.table 中的变化有点麻烦。有没有一种简单的方法可以将非数字列作为字符向量而不是因子来读取?
python - 由 Timestamp 对象组成的 Pandas 系列的 min() 和 max() 方法的意外结果
我在进行基本数据处理时遇到了这种行为,就像在这个例子中一样:
问题:
虽然这看起来不错:
在 groupby 之后聚合时:
显然,在这种特殊情况下,它与使用频率日期时间索引作为 pd.Series 函数的参数有关:
但是,我最初的问题是通过 pd.read_csv() 从字符串中解析的时间戳系列的最小值/最大值
我究竟做错了什么?
python - 从 CSV 文件中去除空格
我需要从读取的 CSV 文件中删除空格
python - 根据映射从给定列表生成列表的 Python 程序
例如
组织列表:
映射:
gen_list:
Python 的实现方式是什么?假设 org_list 和映射在 filesorg_list.txt
和mapping.txt
中,而 gen_list 将被写入gen_list.txt
顺便说一句,您希望哪种语言很容易实现这一点?
python - 与 R 相比,python 中的数据处理(来自 excel 表)
我在这里有一个带有附加文件(Excel 文件链接)的假设示例,我在其中从 excel 加载文件并将其格式化为我可以使用的东西来分析或更永久地存储。
在 RI 中将使用以下几行使其可用:
在python中 - 我已经做到了
但后来我在摆脱空行和空列方面收效甚微。以下所有失败。
所以我什至不太清楚如何检查整个列表是否为空。
我可以压缩第 2 行和第 3 行(python 中的第 5 行和第 6 行)
但我不知道如何将其粘贴到 for-next 循环中。
非常n00b的问题反映了我对python的理解。任何想法都会受到欢迎。提交时有些不安,因为我认识到这个问题有一种“家庭作业”的感觉,尽管它实际上是一个个人学习练习。谢谢
经过一番混乱后,我在下面设计了一个粗略且现成的工作示例:将不胜感激有关如何更有效地执行此操作的指示。
我尝试过 pandas,但发现学习曲线非常陡峭。如果有人可以发布有效的 MWE,我很乐意将其标记为已回答。
r - 如何在 R 中导出 df as.character?
如何在 r 中将数据框完全导出为.character?我有需要在大型数据帧中被视为文本的数字,并且我正在使用 write.csv,但即使我将数字作为字符导入 r,它们也会作为数字导出(在记事本中查看时不被“”包围)并且偶尔会被重写为,例如,1e-04(对于一个小的十进制值)。这是用于数据处理,我需要保持格式化(一旦格式化)的东西。用某种形式的“as.character”或类似的东西,这不应该是可能的吗?
r - 在 R 中保留上一个日期
我陷入了一项相当简单的数据处理任务。我在 R 中有一个类似于这个的事务数据框:
我正在寻找一种方法来保留上一次交易的日期。结果表如下所示:
我研究了其他类似的问题,一个非常接近我想要的解决方案是:
这个问题是,如果没有以前的日期(比如在 id=11 dates=2013-11-15 的情况下),该函数将输出相同的日期,从而导致:
有人可以帮忙吗?
pandas - 使用 Flask 进行数据争吵:如何使用 SQL 语言做到这一点?使用 pandas 有意义吗?
对 SQL 很陌生,在这里使用烧瓶和 sqlalchemy 是我的问题(我希望它不会太长)
概述:
我有一个结构如下的 SQL 表:
name
我的目标是“取消堆叠”结果,例如只要unit
并且ref
相同,我就可以拥有一行。
例如,我希望得到类似的东西:
尝试使用 sqlalchemy:
到目前为止,我尝试根据“名称”加入同一张表——现在,两者都没有检查unit
—— ref
:
使用熊猫的示例:
这是我使用pandas
库会得到的。
...这与我的预期相差不远。
那么用 SQL 语言来做这件事有意义吗?因此,我的以下问题是:使用Flask
框架,使用 pandas 进行数据处理有意义吗?还是我应该坚持使用 SQL 语言?