dask - 您可以在 dask 阵列上使用 dask_ml kmeans 吗？

Question

我有以下代码：

feature_array = da.concatenate(features, axis=1)#.compute()
model = KMeans(n_clusters=4)
model.fit(features, y=None)

现在，如果我首先计算 feature_array 这段代码运行得很好，但是没有它它会给出一些我无法弄清楚的内部 TypeError：

File "/Users/(...)/lib/python3.7/site-packages/dask_ml/utils.py", line 168, in check_array
    sample = np.ones(shape=shape, dtype=array.dtype)
  File "/Users/(...)/lib/python3.7/site-packages/numpy/core/numeric.py", line 207, in ones
    a = empty(shape, dtype, order)
TypeError: 'float' object cannot be interpreted as an integer

我不应该在 dask_ml 中使用 dask 数组吗？我想使用 dask_ml 的主要原因是我希望这段代码能够在大于内存的数据集上运行。

干杯，弗洛里安

score 1 · Accepted Answer

对我来说没问题

In [1]: from dask_ml.cluster import KMeans                                      

In [2]: import dask.array as da                                                 

In [3]: x = da.random.random((10, 3))                                           

In [4]: k = KMeans(n_clusters=3)                                                

In [5]: k.fit(x)                                                                
Out[5]: 
KMeans(algorithm='full', copy_x=True, init='k-means||', init_max_iter=None,
       max_iter=300, n_clusters=3, n_jobs=1, oversampling_factor=2,
       precompute_distances='auto', random_state=None, tol=0.0001)

我建议提供MCVE

此外，您提供的是 Numpy 数组，而不是 Dask 数组。

dask - 您可以在 dask 阵列上使用 dask_ml kmeans 吗？

1 回答 1

Related

Reference