“data-processing”的相关标签问题

0 投票

2 回答

104 浏览

bioinformatics - 如何以某种自动方式（微阵列数据处理）将长基因名称更改为缩写？

是否有任何自动方法可以将长基因名称（如 Cadherin_3453）列表转换为其缩写，如 CDHRN_3453？Genomics, Bioinformatics 中是否有任何缩写名称约定？

对不起，这里没有代码

2013-09-04T17:54:22.117

0 投票

2 回答

3773 浏览

python - 在行不相等的情况下，如何通过公共列合并两个 csv 文件？

我有一组 100 个文件。包含美国每个州的人口普查信息的 50 个文件。其他五十个是需要与每个州的正确文件合并的地理数据。

对于每个州，人口普查文件及其对应的地理文件通过一个公共变量 LOGRECNO 关联，即人口普查文件中的第 10 列和地理文件中的第 7 列。

问题是地理文件比人口普查文件有更多的行；我的人口普查数据不涵盖地理位置的某些子集，因此行数少于地理数据文件。

如何将人口普查数据与地理日期合并（仅保留人口普查数据所在的行/地理位置，不关心其余部分）？

我是 Python 的新手，我有点知道如何在 python 中执行基本的 csv 文件 i/o。同时操作 2 个 csv 被证明是令人困惑的。

例子：

sample_state_census.csv

sample_state_geo.csv

预期输出（不要合并 sample_state_census.csv 中不存在的 LOGRECNO 值的行）

python csv data-processing

2013-09-08T22:54:09.173

0 投票

1 回答

715 浏览

r - 如何在 PMML 中执行 koyck 滞后转换？

我正在使用 PMML 在不同平台之间传输我的模型（我在 R 中开发的）。我经常面临的一个问题是，给定输入数据，我需要进行大量预处理。大多数情况下，这在 PMML 中相当简单，但当我需要 Koyck 滞后转换时，我无法弄清楚如何去做。现在输入数据集的前几行如下所示：

并由以下方式生成：

我想使用变量 Xa、Xb 和 Xc 的 koyck 滞后创建一个新变量 M，如下所示：

最后建立一个模型：

在 RI 中使用 pmml 库可以得到这样的 PMML XML 输出。

但是，我想包括一个创建变量 M 的部分。如何编写符合 PMML 的部分？同样，输入数据是 df data.frame，我希望在 PMML 中定义所有数据预处理。

r data-processing pmml

2013-09-09T16:44:44.040

0 投票

1 回答

1139 浏览

machine-learning - 机器学习中如何处理具有其他属性的时间序列数据？

我正在研究一个二进制分类问题，如果每个数据实例都有几个不同指标的时间序列，并且还有一些其他属性。如何处理时间序列，将它们视为单独的属性？但这会丢失与时间维度相关的信息。

为了使其更具体，训练实例的示例如下所示：

有没有关于如何处理这个问题的最佳实践？

machine-learning data-mining data-processing

2013-09-17T15:13:09.923

0 投票

2 回答

2340 浏览

python - 将python字典转换为流程图

我有一个程序会生成一个非常大的字典样式列表，看起来像这样：

我想使用 pygame 之类的东西创建一个程序来生成一个流程图，使用箭头将所有第一个术语连接到最后一个术语。这将忽略重复的连接并在它们自身加倍时生成项目循环。

如果上面的列表被处理，它看起来像这样（请原谅手绘）：在此处输入图像描述

python list dictionary bigdata data-processing

2013-09-28T02:30:09.270

0 投票

2 回答

622 浏览

java - 从 Java 进行数据处理的工具

我有一个遗留系统，它使用 SAS 从数据库中提取原始数据，清理和整合它，然后对输出的文档进行评分。

我想迁移到 Java 或类似的面向对象的解决方案，这样我就可以实现单元测试，以及一般更好的代码控制。（我不是在谈论检修整个系统，而是在我可以的地方注入 java）。

就数据大小而言，我们谈论的是大约 1 TB 的数据被摄取和创建。在扩展方面，这可能会增加大约 10 倍，但不太可能像全球 Web 项目那样大规模增加。

问题是——什么样的工具最适合这种项目？

我在哪里可以找到这些信息 - 应该使用哪些搜索词？

对 SQL 数据库进行处理（根据需要创建和删除表、添加列）是合适的还是糟糕的解决方案？

我已经快速了解了 Hadoop——但是由于这个项目的规模很小，Hadoop 会不会是一个不必要的复杂性？

是否有任何 Java 包在合并、连接、排序、分组数据集以及修改数据方面具有与 SAS 或 SQL 类似的功能？

java sql hadoop bigdata data-processing

2013-10-11T01:37:41.390

0 投票

1 回答

790 浏览

我有一个电路，可以从传感器向我发送两个不同的数据。数据以数据包的形式出现。第一个数据是“$”，用于将一个数据包分隔到另一个数据包。在“$”之后，它发送 16 字节的麦克风数据和 1 字节的脉冲传感器数据。我有一个数组来存储传入的数据，每 20 毫秒绘制一次数据后，我开始从数组的零索引写入新字节。我需要使用 ZedGraph 将这些数据绘制到不同的图表中。但是我无法正确分离这些数据。有时，一个或多个音频数据会显示在其他图表中。这是我的代码：

我该如何解决这个问题？

电路设置：波特率：38400，频率：200hz，通信类型：RS232。

端口设置：ReadTimeOut=5 WrtieTimeOut=5；

在读取数据时，我使用下面的代码。Read_Data1 引用 data[] 上面的代码。我有一个计数器，在绘制数据后它的值为零，我阻止了我的缓冲区index out of range exception

c#plot signal-processing zedgraph data-processing

2013-10-11T08:42:07.607

0 投票

2 回答

793 浏览

sql - 关系数据库是否适合类似 SAS 的处理？

目前我有一个程序在 SAS 中处理原始数据，运行如下查询：

你得到图片。有很多这样的数据处理报表，每周都会在新记录上运行。

还进行数据转换（例如清理/解析地址）。

现在 - 这种处理可以使用 SQL 来完成。

问题是——这是否适合使用关系数据库？还是应该仅将数据库用于数据存储和检索？

考虑到我们正在讨论具有多达 1000 万行的表。

sql relational-database sas data-processing

2013-11-01T03:05:42.390

0 投票

3 回答

16527 浏览

json - 格式化大型 JSON 文件的最佳方法？(~30 mb)

我需要格式化一个大的 JSON 文件以提高可读性，但我发现的每个资源（主要是在线资源）都不能处理超过 1-2 MB 的数据。我需要格式化大约 30 MB。有什么方法可以做到这一点，或者有什么方法可以编写代码来做到这一点？

json data-processing

2013-11-09T11:08:04.760

0 投票

2 回答

2569 浏览

python - 使用 python (pandas) 对 CSV 文件进行条件合并

我正在尝试合并>=2具有相同架构的文件。
这些文件将包含重复的条目，但行不会相同，例如：

如果您注意到 : 9191,9827 Park st,999999999 and 9191,9827 Park st Apt82,999999999基于 store_id 和 phone 是相似的，但我从 file2 中选择了它，因为地址更具描述性。

store_id+phone_number是我的复合主键来查找位置并查找重复项（store_id 足以在上面的示例中找到它，但我需要一个基于多个列值的键）

问题：
- 我需要合并多个具有相同架构但具有重复行的 CSV 文件。
- 行级合并应该具有根据行的值选择行的特定值的逻辑。就像从文件 1 中提取的电话和从文件 2 中提取的地址一样。
- 1 个或多个列值的组合将定义行是否重复。

这可以使用熊猫来实现吗？

python csv pandas data-processing

2013-11-19T00:04:49.417

问题标签 [data-processing]

bioinformatics - 如何以某种自动方式（微阵列数据处理）将长基因名称更改为缩写？

python - 在行不相等的情况下，如何通过公共列合并两个 csv 文件？

r - 如何在 PMML 中执行 koyck 滞后转换？

machine-learning - 机器学习中如何处理具有其他属性的时间序列数据？

python - 将python字典转换为流程图

java - 从 Java 进行数据处理的工具

c# - C# 信号处理绘制快速数据

sql - 关系数据库是否适合类似 SAS 的处理？

json - 格式化大型 JSON 文件的最佳方法？(~30 mb)

python - 使用 python (pandas) 对 CSV 文件进行条件合并

问题标签 [data-processing]

Reference