0

我需要处理来自 Rest web 服务的数据。以下基本示例是:

import org.springframework.batch.item.ItemReader;
import org.springframework.http.ResponseEntity;
import org.springframework.web.client.RestTemplate;

import java.util.Arrays;
import java.util.List;

class RESTDataReader implements ItemReader<DataDTO> {

private final String apiUrl;
private final RestTemplate restTemplate;

private int nextDataIndex;
private List<DataDTO> data;

RESTDataReader(String apiUrl, RestTemplate restTemplate) {
    this.apiUrl = apiUrl;
    this.restTemplate = restTemplate;
    nextDataIndex = 0;
}

@Override
public DataDTO read() throws Exception {
    if (dataIsNotInitialized()) {
        data = fetchDataFromAPI();
    }

    DataDTO nextData = null;

    if (nextDataIndex < data.size()) {
        nextData = data.get(nextDataIndex);
        nextDataIndex++;
    }
    else {
        nextDataIndex= 0;
        data = null;
    }

    return nextData;
}

private boolean dataIsNotInitialized() {
    return this.data == null;
}

private List<DataDTO> fetchDataFromAPI() {
    ResponseEntity<DataDTO[]> response = restTemplate.getForEntity(apiUrl,
            DataDTO[].class
    );
    DataDTO[] data= response.getBody();
    return Arrays.asList(data);
}
}

但是,我的 fetchDataFromAPI 方法是使用时隙调用的,它可以获得超过 20 百万个对象。

例如:如果我在 01012020 和 01012021 之间调用它,我将获得 8000 万个数据。

PS:网络服务通过一天的分页工作,即如果我想检索 01/09/2020 和 07/09/2020 之间的数据,我必须调用它几次(然后在 01/09-02/09 之间)在 02/09-03/09 之间等等直到 06/09-07/09)

如果数据很大,我在这种情况下的问题是堆空间内存。

我必须为每个月创建一个步骤以避免在我的 BatchConfiguration 中出现这个问题(12 个步骤)。第一步将在 01/01/2020 和 01/02/2020 等之间调用 Web 服务

有没有一种解决方案可以在进入处理器之前只用一步读取所有这些数据量?

提前致谢

4

1 回答 1

1

由于您的 Web 服务在一天内不提供分页,因此您需要确保调用此 Web 服务的进程(即您的 Spring Batch 作业)有足够的内存来存储此服务返回的所有项目。

例如:如果我在 01012020 和 01012021 之间调用它,我将获得 8000 万个数据。

这意味着,如果您curl在没有足够内存来保存结果的机器上调用此 Web 服务,则该curl命令将失败。我想在这里说明的一点是,解决这个问题的唯一方法是为运行 Spring Batch 作业的 JVM 提供足够的内存来保存如此大的结果集。

附带说明:如果您可以控制此 Web 服务,我强烈建议您通过引入更精细的分页机制来改进它。

于 2021-04-16T08:05:57.020 回答