问题标签 [data-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - 如何以某种自动方式(微阵列数据处理)将长基因名称更改为缩写?
是否有任何自动方法可以将长基因名称(如 Cadherin_3453)列表转换为其缩写,如 CDHRN_3453?Genomics, Bioinformatics 中是否有任何缩写名称约定?
对不起,这里没有代码
python - 在行不相等的情况下,如何通过公共列合并两个 csv 文件?
我有一组 100 个文件。包含美国每个州的人口普查信息的 50 个文件。其他五十个是需要与每个州的正确文件合并的地理数据。
对于每个州,人口普查文件及其对应的地理文件通过一个公共变量 LOGRECNO 关联,即人口普查文件中的第 10 列和地理文件中的第 7 列。
问题是地理文件比人口普查文件有更多的行;我的人口普查数据不涵盖地理位置的某些子集,因此行数少于地理数据文件。
如何将人口普查数据与地理日期合并(仅保留人口普查数据所在的行/地理位置,不关心其余部分)?
我是 Python 的新手,我有点知道如何在 python 中执行基本的 csv 文件 i/o。同时操作 2 个 csv 被证明是令人困惑的。
例子:
sample_state_census.csv
sample_state_geo.csv
预期输出(不要合并 sample_state_census.csv 中不存在的 LOGRECNO 值的行)
r - 如何在 PMML 中执行 koyck 滞后转换?
我正在使用 PMML 在不同平台之间传输我的模型(我在 R 中开发的)。我经常面临的一个问题是,给定输入数据,我需要进行大量预处理。大多数情况下,这在 PMML 中相当简单,但当我需要 Koyck 滞后转换时,我无法弄清楚如何去做。现在输入数据集的前几行如下所示:
并由以下方式生成:
我想使用变量 Xa、Xb 和 Xc 的 koyck 滞后创建一个新变量 M,如下所示:
最后建立一个模型:
在 RI 中使用 pmml 库可以得到这样的 PMML XML 输出。
但是,我想包括一个创建变量 M 的部分。如何编写符合 PMML 的部分?同样,输入数据是 df data.frame,我希望在 PMML 中定义所有数据预处理。
machine-learning - 机器学习中如何处理具有其他属性的时间序列数据?
我正在研究一个二进制分类问题,如果每个数据实例都有几个不同指标的时间序列,并且还有一些其他属性。如何处理时间序列,将它们视为单独的属性?但这会丢失与时间维度相关的信息。
为了使其更具体,训练实例的示例如下所示:
有没有关于如何处理这个问题的最佳实践?
python - 将python字典转换为流程图
我有一个程序会生成一个非常大的字典样式列表,看起来像这样:
我想使用 pygame 之类的东西创建一个程序来生成一个流程图,使用箭头将所有第一个术语连接到最后一个术语。这将忽略重复的连接并在它们自身加倍时生成项目循环。
如果上面的列表被处理,它看起来像这样(请原谅手绘):
java - 从 Java 进行数据处理的工具
我有一个遗留系统,它使用 SAS 从数据库中提取原始数据,清理和整合它,然后对输出的文档进行评分。
我想迁移到 Java 或类似的面向对象的解决方案,这样我就可以实现单元测试,以及一般更好的代码控制。(我不是在谈论检修整个系统,而是在我可以的地方注入 java)。
就数据大小而言,我们谈论的是大约 1 TB 的数据被摄取和创建。在扩展方面,这可能会增加大约 10 倍,但不太可能像全球 Web 项目那样大规模增加。
问题是——什么样的工具最适合这种项目?
我在哪里可以找到这些信息 - 应该使用哪些搜索词?
对 SQL 数据库进行处理(根据需要创建和删除表、添加列)是合适的还是糟糕的解决方案?
我已经快速了解了 Hadoop——但是由于这个项目的规模很小,Hadoop 会不会是一个不必要的复杂性?
是否有任何 Java 包在合并、连接、排序、分组数据集以及修改数据方面具有与 SAS 或 SQL 类似的功能?
c# - C# 信号处理绘制快速数据
我有一个电路,可以从传感器向我发送两个不同的数据。数据以数据包的形式出现。第一个数据是“$”,用于将一个数据包分隔到另一个数据包。在“$”之后,它发送 16 字节的麦克风数据和 1 字节的脉冲传感器数据。我有一个数组来存储传入的数据,每 20 毫秒绘制一次数据后,我开始从数组的零索引写入新字节。我需要使用 ZedGraph 将这些数据绘制到不同的图表中。但是我无法正确分离这些数据。有时,一个或多个音频数据会显示在其他图表中。这是我的代码:
我该如何解决这个问题?
电路设置:波特率:38400,频率:200hz,通信类型:RS232。
端口设置:ReadTimeOut=5 WrtieTimeOut=5;
在读取数据时,我使用下面的代码。Read_Data1 引用 data[] 上面的代码。我有一个计数器,在绘制数据后它的值为零,我阻止了我的缓冲区index out of range exception
sql - 关系数据库是否适合类似 SAS 的处理?
目前我有一个程序在 SAS 中处理原始数据,运行如下查询:
你得到图片。有很多这样的数据处理报表,每周都会在新记录上运行。
还进行数据转换(例如清理/解析地址)。
现在 - 这种处理可以使用 SQL 来完成。
问题是——这是否适合使用关系数据库?还是应该仅将数据库用于数据存储和检索?
考虑到我们正在讨论具有多达 1000 万行的表。
json - 格式化大型 JSON 文件的最佳方法?(~30 mb)
我需要格式化一个大的 JSON 文件以提高可读性,但我发现的每个资源(主要是在线资源)都不能处理超过 1-2 MB 的数据。我需要格式化大约 30 MB。有什么方法可以做到这一点,或者有什么方法可以编写代码来做到这一点?
python - 使用 python (pandas) 对 CSV 文件进行条件合并
我正在尝试合并>=2
具有相同架构的文件。
这些文件将包含重复的条目,但行不会相同,例如:
如果您注意到 :
9191,9827 Park st,999999999 and 9191,9827 Park st Apt82,999999999
基于 store_id 和 phone 是相似的,但我从 file2 中选择了它,因为地址更具描述性。
store_id+phone_number
是我的复合主键来查找位置并查找重复项(store_id 足以在上面的示例中找到它,但我需要一个基于多个列值的键)
问题:
- 我需要合并多个具有相同架构但具有重复行的 CSV 文件。
- 行级合并应该具有根据行的值选择行的特定值的逻辑。就像从文件 1 中提取的电话和从文件 2 中提取的地址一样。
- 1 个或多个列值的组合将定义行是否重复。
这可以使用熊猫来实现吗?