1

我正在尝试寻找方法来进一步提高我的控制台应用程序的性能(已经完全正常工作)。

我有一个 CSV 文件,其中包含地址列表(大约 100k)。我需要查询一个 Web API,其 POST 响应将是这些地址的地理坐标。然后,我将使用地理坐标(纬度和经度)丰富的地址数据将 GeoJSON 文件写入文件系统。

我当前的解决方案将数据分成 1000 条记录的批次,并使用 HttpClient(带有控制台应用程序的 .NET core 3.1 和使用 .NET Standard 2.0 的类库)向 Web API 发送异步 POST 请求。GeoJSON 是我的 DTO 类。

public class GeoJSON
    {
        public string Locality { get; set; }
        public string Street { get; set; }
        public string StreetNumber { get; set; }
        public string ZIP { get; set; }
        public string Latitude { get; set; }
        public string Longitude { get; set; }
    }


public static async Task<List<GeoJSON>> GetAddressesInParallel(List<GeoJSON> geos)
        {
            //calculating number of batches based on my batchsize (1000)
            int numberOfBatches = (int)Math.Ceiling((double)geos.Count() / batchSize);

            for (int i = 0; i < numberOfBatches; i++)
            {
                var currentIds = geos.Skip(i * batchSize).Take(batchSize);
                var tasks = currentIds.Select(id => SendPOSTAsync(id));
                geoJSONs.AddRange(await Task.WhenAll(tasks));
            }

            return geoJSONs;
        }

我的异步 POST 方法如下所示:

 public static async Task<GeoJSON> SendPOSTAsync(GeoJSON geo)
        {
            string payload = JsonConvert.SerializeObject(geo);
            HttpContent c = new StringContent(payload, Encoding.UTF8, "application/json");
            using HttpResponseMessage response = await client.PostAsync(URL, c).ConfigureAwait(false);

            if (response.IsSuccessStatusCode)
            {
                var address = JsonConvert.DeserializeObject<GeoJSON>(await response.Content.ReadAsStringAsync());
                geo.Latitude = address.Latitude;
                geo.Longitude = address.Longitude;
            }
            return geo;
        }

Web API 作为自托管 x86 应用程序在我的本地计算机上运行。整个应用程序在不到 30 秒内结束。最耗时的部分是 Async POST 部分(大约 25 秒)。Web API 每篇文章只需要一个地址,否则我会在一个请求中发送多个地址。

关于如何提高针对 Web API 的请求性能的任何想法?

4

2 回答 2

1

您的批处理方法的一个潜在问题是单个延迟响应可能会延迟整个批处理的完成。这可能不是一个实际问题,因为您正在调用的 Web 服务可能具有非常一致的响应时间,但无论如何您都可以尝试一种替代方法,该方法允许在不使用批处理的情况下控制并发。下面的示例使用TPL 数据流库,该库内置于 .NET Core 平台,可作为.NET Framework的包使用:

public static async Task<List<GeoJSON>> GetAddressesInParallel(List<GeoJSON> geos)
{
    var block = new ActionBlock<GeoJSON>(async item =>
    {
        await SendPOSTAsync(item);
    }, new ExecutionDataflowBlockOptions()
    {
        MaxDegreeOfParallelism = 1000
    });

    foreach (var item in geos)
    {
        await block.SendAsync(item);
    }
    block.Complete();

    await block.Completion;
    return geos;
}

您的SendPOSTAsync方法只返回GeoJSON作为参数接收的相同内容,因此GetAddressesInParallel也可以返回List<GeoJSON>作为参数接收的相同内容。

ActionBlock是库中可用的最简单的块。它只是为每个项目执行同步或异步操作,允许配置MaxDegreeOfParallelism其他选项。您还可以尝试将您的工作流程拆分为多个块,然后将它们链接在一起以形成管道。例如:

  1. TransformBlock<GeoJSON, (GeoJSON, string)>GeoJSON对象序列化为 JSON。
  2. TransformBlock<(GeoJSON, string), (GeoJSON, string)>发出 HTTP 请求。
  3. ActionBlock<(GeoJSON, string)>反序列化 HTTP 响应并GeoJSON使用接收到的值更新对象。

这样的安排将允许您微调MaxDegreeOfParallelism每个块的,并有望实现最佳性能。

于 2020-01-03T06:24:10.823 回答
0

上面的答案可能是正确的,但是这种依赖不是必须的。你可以只使用Task.WhenAll. 此代码来自不同的 Rest 库,但概念相同:

var tasks = new List<Task<Response<Person>>>();
const int maxCalls = 100;

Parallel.For(0, maxCalls, (i) =>
{
    var client = clientFactory.CreateClient();
    tasks.Add(client.GetAsync<Person>(new Uri("JsonPerson", UriKind.Relative)));
});

var results = await Task.WhenAll(tasks);

客户端以 100 倍并行创建和请求。然后并行等待所有任务。这意味着所有可用的资源都被利用了。

完整代码

于 2020-01-04T05:42:41.530 回答