我正在使用 Dask 进行并行计算,并希望使用langdetect
. 但是,我仍然无法获得任何速度来获取列中行的语言。
下面是我的代码:
import dask.dataframe as dd
data = dd.read_csv('name.csv')# has a column called short_description
def some_fn(e):
return e['short_description'].apply(langdetect.detect)
data['Language'] = data.map_partitions(some_fn, meta='string')# adding a new column called Language.
这个 csav 文件有 800000 行,每行包含大约 800000 行。20字长句。
任何关于如何更快地实现语言检测的建议,因为目前需要 2-3 小时。