1

我有一个关于多重嵌套语句的一般性问题。对于“复杂的嵌套”(> 3/4 层),有什么更好的方法,尤其是在迭代 AND 使用 if 语句时?

我有很多文件,其中一些在子目录中,另一些在根目录中。我想从许多目录中提取数据集并附加到目标数据集(主数据集)。

for special_directory in directorylist:
    for dataset in special_directory:
        if dataset in list_of_wanted:
        some_code
        if it_already_exists:
            for feature_class in dataset:
                if feature_class in list_of_wanted:

然后我真正进入了代码处理的核心。坦率地说,我想不出一种方法来避免这些嵌套的条件和循环语句。有什么我想念的吗?我应该使用“while”而不是“for”吗?

我的实际特定代码有效。它只是不会很快移动。它正在迭代 27 个数据库,以将每个数据库的内容附加到一个新的目标数据库。我的 python 已经运行了 36 个小时,已经到了 4/27。提示?

我在 GIS 堆栈交换中发布了这个,但我的问题实在是太笼统了,不属于那里:问题和更具体的代码

有小费吗?这方面的最佳做法是什么?这已经是代码的一个子集。这将从另一个脚本生成的列表中的地理数据库中查找其中的数据集和要素类。第三个脚本查找存储在地理数据库中的要素类(即不在数据集中)。

ds_wanted = ["Hydrography"]
fc_wanted = ["NHDArea","NHDFlowline","NHDLine","NHDWaterbody"]

for item in gdblist:
env.workspace = item
for dsC in arcpy.ListDatasets():
    if dsC in ds_wanted:
        secondFD = os.path.join(gdb,dsC)
        if arcpy.Exists(secondFD):
            print (secondFD + " exists, not copying".format(dsC))
            for fcC in arcpy.ListFeatureClasses(feature_dataset=dsC):
               if fcC in fc_wanted:
                   secondFC2 = os.path.join(gdb,dsC, fcC)
                   if arcpy.Exists(secondFC2):
                       targetd2 = os.path.join(gdb,dsC,fcC)
                   # Create FieldMappings object and load the target dataset
                   #
                       print("Now begin field mapping!")
                       print("from {} to {}").format(item, gdb)
                       print("The target is " + targetd2)
                       fieldmappings = arcpy.FieldMappings()
                       fieldmappings.addTable(targetd2)

                       # Loop through each field in the input dataset
                       #

                       inputfields = [field.name for field in arcpy.ListFields(fcC) if not field.required]
                       for inputfield in inputfields:
                       # Iterate through each FieldMap in the FieldMappings
                           for i in range(fieldmappings.fieldCount):
                               fieldmap = fieldmappings.getFieldMap(i)
                    # If the field name from the target dataset matches to a validated input field name
                               if fieldmap.getInputFieldName(0) == inputfield.replace(" ", "_"):
                        # Add the input field to the FieldMap and replace the old FieldMap with the new
                                   fieldmap.addInputField(fcC, inputfield)
                                   fieldmappings.replaceFieldMap(i, fieldmap)
                                   break
                   # Perform the Append
                   #
                       print("Appending stuff...")
                       arcpy.management.Append(fcC, targetd2, "NO_TEST", fieldmappings)
                   else:
                       arcpy.Copy_management(fcC, secondFC2)
                       print("Copied " +fcC+ "into " +gdb)
               else:
                   pass

        else:
            arcpy.Copy_management(dsC,secondFD) # Copies feature class from first gdb to second gdb
            print "Copied "+ dsC +" into " + gdb
    else:
        pass
        print "{} does not need to be copied to DGDB".format(dsC)

print("Done with datasets and the feature classes within them.")

它似乎真的陷入了 arcpy.management.Append 我对这个功能有一些公平的经验,尽管这比典型的表模式(更多记录,更多字段)更大,但单个追加需要 12 多个小时。以我最初的问题为基础,这可能是因为它嵌套得太深了吗?或者情况并非如此,数据只需要时间来处理?

4

1 回答 1

0

一些很好的评论来回答你的问题。我在多处理方面的经验有限,但让所有计算机内核正常工作通常会加快速度。如果您的四核处理器在脚本执行期间仅运行大约 25%,那么您可能会受益。你只需要小心你如何应用它,以防一件事总是在另一件事之前发生。如果您使用的是文件地理数据库而不是企业级 gdb,那么您的瓶颈可能出在磁盘上。如果 gdb 是远程的,则可能是网络速度问题。无论哪种方式,多处理都无济于事。Windows 上的资源监视器将让您大致了解使用了多少处理器/磁​​盘/RAM/网络。

我刚刚使用了一个类似的脚本,使用 rpy2 和来自/到 PostGIS 的数据。它仍然需要大约 30 小时才能运行,但这比 100 小时要好得多。我还没有在 Arc 中使用过多处理(我主要在开源领域工作),但知道有人使用过。

一个非常简单的多处理实现:

from multiprocessing import Pool

def multi_run_wrapper(gdblist):
    """Helper function to unpack argument lists during multiprocessing.
    Modified from: http://stackoverflow.com/a/21130146/4062147"""
    return gdb_append(*gdblist)  # the * unpacks the list

def gdb_append(gdb_id):
    ...

# script starts here #

gdblist = [......]

if __name__ == '__main__':
    p = Pool()
    p.map(multi_run_wrapper, gdblist)

print("Script Complete")

通常你会加入池的结果,但由于你使用它来执行任务,我不确定这是必要的。其他人可能能够插话什么是最佳实践。

于 2017-02-22T01:07:56.140 回答