0

我计划在以下格式的数据集上使用 dl4j:

{“文章”:[{“abstractText”:“text..”,“journal”:“journal..”,“meshMajor”:[“mesh1”,...,“meshN”],“pmid”:” PMID", "title":"title..", "year":"YYYY"},..., {..}]}

字段 meshMajor 包含类标签,其余是模型的输入。输入特征是文本数据。

我想知道是否有任何内置的 JSON 数据集迭代器,如 CSV 迭代器。我在 github 上发布的示例中进行了查找,但找不到一个。如果没有可用的,有人可以提供一些关于实现它的指示。

谢谢!

4

2 回答 2

0

这看起来是一个充满希望的开始:

https://deeplearning4j.org/docs/latest/datavec-serialization

然后,您应该能够在此处使用示例:

https://github.com/deeplearning4j/dl4j-examples/tree/master/datavec-examples/src/main/java/org/datavec/transform/basic

于 2019-05-28T08:01:13.533 回答
0

在 DL4J 的 gitter 中问过这个问题,解决方案是使用杰克逊记录阅读器。其他详细信息可在https://github.com/deeplearning4j/DataVec/tree/master/datavec-api/src/main/java/org/datavec/api/records/reader/impl/jackson和阅读 JSON 的示例可用在

  1. https://github.com/deeplearning4j/DataVec/blob/master/datavec-api/src/test/java/org/datavec/api/records/reader/impl/JacksonLineRecordReaderTest.java和,

  2. https://github.com/deeplearning4j/DataVec/blob/master/datavec-api/src/test/java/org/datavec/api/records/reader/impl/JacksonRecordReaderTest.java

请注意,JacksonLineRecordReader 和 JacksonRecordReaderTest.java 之间存在差异,前者要求每个 JSON 记录恰好跨越一行,而后者要求每个 JSON 记录有一个文件。

于 2019-06-07T03:25:41.930 回答