我有大量捕获的数据(可能有数十万条记录),我需要能够对其进行分解,这样我既可以对其进行分类,也可以自己生成“典型”数据。让我进一步解释...
如果我有以下数据字符串:
132T339G1P112S
164T897F5A498S
144T989B9B223T
155T928X9Z554T
...
您可能会开始推断以下内容:
- 可能所有字符串都是 14 个字符长
- 第 4、8、10 和 14 个字符可能始终是字母,而其余字符是数字
- 第一个字符可能始终是“1”
- 第 4 个字符可能总是字母 'T'
- 第 14 个字符可能仅限为“S”或“T”
- 等等...
随着您获得越来越多的真实数据样本,其中一些“规则”可能会消失;如果您看到一个 15 个字符长的字符串,那么您就有证据表明第一条“规则”不正确。但是,给定足够大的字符串样本,长度正好是 14 个字符,您可以开始假设“所有字符串都是 14 个字符长”,并为您的置信度分配一个数字(围绕事实进行适当的假设您正在看到一组适当随机的所有可能捕获的数据)。
正如您可能知道的那样,人类可以通过肉眼进行很多此类分类,但我不知道允许计算机进行分类的库或算法。
给定一组捕获的数据(比上面的要复杂得多......),我可以在我的代码中应用哪些库来为我进行这种分类,从而以给定的置信度识别“规则”?
作为下一步,我需要能够采用这些规则,并使用它们来创建符合这些规则的我自己的数据。我认为这比分类要容易得多,但我以前从未执行过这样的任务,所以我真的不确定它有多复杂。
猜测一下,Python 或 Java(或者可能是 Perl 或 R)可能是最有可能拥有这类库的“通用”语言,而且也许一些生物信息库会做这类事情。我真的不在乎我必须使用哪种语言。我需要尽我所能解决问题。
任何指向信息的指针都会非常有用。正如您可能知道的那样,我正在努力清楚地描述这个问题,并且可能有一组合适的关键字我可以插入谷歌,这将指向我的解决方案。