我正在学习JBoss Drools,并且正在使用来自 hapmap 项目的遗传学数据:(http://hapmap.ncbi.nlm.nih.gov/genotypes/latest/forward/non-redundant/)。该目录中的每个文件都是一个表格,顶部是个体,左侧是基因组上的位置,以及每个个体/位置观察到的突变。
在这里,我想使用 Drools 在文件中找到一些潜在的错误(例如,孩子没有父母的任何突变)。
1)我想在 Drools 中加载这些数据。这可能是大量数据(例如 genotypes_chr2_YRI_r27_nr.b36_fwd.txt.gz 是 20Mo gzipped) 这些数据会存储在内存中吗?还是 Drools 将其存储在某个地方?还是我应该使用持久性系统?
2)关于型号:
我正在考虑将以下类放入StatefulKnowledgeSession:
class Individual
{
private String name;
//constructor, getters, setters etc...
}
class Position
{
private String name;
private String chromosome;
private int position;
//constructor, getters, setters etc...
}
class ObservedMutation
{
private String individualName;
private String positionName;
private String observed;
//constructor, getters, setters etc...
}
或者 ObservedMutation 应该是:
class ObservedMutation
{
private Individual individual;
private Position position;
private String observed;
//constructor, getters, setters etc...
}
谢谢你的建议
皮埃尔
更新:我的第一次测试:http://plindenbaum.blogspot.com/2010/07/rules-engine-for-bioinformatics-playing.html