0

问题:我的团队目前正在进行从 ECC 系统到新 S/4 Hana 系统的 ERP 迁移。作为上线的一部分,我们的团队需要将所有表从 S/4 系统复制到我们将托管数据的 SLT 模式中。大多数表将由 SAP 之外的 SLT 复制处理。但是,由于时间紧迫,我们确定了 4 个需要多天复制的表。想法是从远程源 (ABAP/SDA) 复制现有数据并放置在我们的 SLT 模式中。一旦完成,我们可以激活点前向复制并允许更新所有新的或修改的记录查看 SLT 复制。

尝试的方法:我们当前的方法是与后端 S/4 数据库建立 SDA 连接,并按年份分解数据,以使用存储过程插入到我们的本地表中。这种方法出现了许多问题,但它目前正在发挥作用。它只是超级慢。

论坛问题:

  • 这是您处理此类问题的方式吗?如果没有,您提出的解决方案是什么?
  • 您是否在目标表中看到任何需要自定义以提高性能的内容?
  • 存储过程中是否有任何突出的地方需要调整?

示例: 假设我们有一个名为:A_tbl的源表

  • A_tbl 中有 5 亿条记录
  • 大约 500 列宽

然后我们将有我们的目标表:B_tbl

  • 与 A_tbl (500) 相同的列数
  • 12 人轮循分区
  • 索引 5 列

当前程序:

CREATE OR REPLACE procedure LOAD_B_TBL_FROM_A_TBL ()
as
begin

    declare v_offset_nbr integer;
    declare v_record_count integer;
    declare v_commit_count integer;
    declare i integer;
    declare v_year nvarchar(4);
    declare v_record_per_commit_count CONSTANT INT = 1000000; 
    declare v_table_name CONSTANT NVARCHAR(30) = 'A_TBL';   
    declare v_start_year CONSTANT INT = 2011;
    declare v_end_year CONSTANT INT = 2022;
    declare year_nbr integer;

    
    for year_nbr in v_start_year..v_end_year do
    
        select IfNull(max(offset_nbr),0) into v_offset_nbr from B_TBL_SCHEMA.bulk_load_log where table_name = :v_table_name AND year_nbr = to_varchar(year_nbr); -- Get offset number of records
        
        select count(*) into v_record_count from A_TBL_SCHEMAA_TBL A_TBL WHERE A_TBL.YEAR = to_varchar(year_nbr); -- Count the source records.
    
        v_record_count = v_record_count - v_offset_nbr; -- Subtract out the records already committed for the current year. Failsafe if procedure fails
        
        v_commit_count = v_record_count / v_record_per_commit_count; -- Number of times we need to loop
        
        IF v_record_count < v_record_per_commit_count THEN -- Don't enter the loop if it's not necessary
            INSERT INTO B_TBL_SCHEMA.B_TBL (
                SELECT * FROM A_TBL_SCHEMAA_TBL
                WHERE A_TBL.YEAR = to_varchar(year_nbr)
            ); -- Insert into our target table 
            COMMIT;
            
            
            insert into B_TBL_SCHEMA.bulk_load_log values(
                v_table_name,
                to_varchar(year_nbr),
                :v_offset_nbr,
                now()
            ); -- Insert into a logging table to keep up with offset
    
        ELSE
    
            for i in 0..v_commit_count do -- Loop number of commit times. (500 million / 1 million) = 500 commits necessary to process entire table
        
                INSERT INTO B_TBL_SCHEMA.B_TBL (
                    SELECT * FROM A_TBL_SCHEMAA_TBL 
                    WHERE A_TBL.YEAR = to_varchar(year_nbr)
                    LIMIT :v_record_per_commit_count OFFSET :v_offset_nbr
                ); -- Insert into our target table
                COMMIT;
            
                v_offset_nbr = v_offset_nbr + v_record_per_commit_count; -- Update the offset before logging so we know where to begin if procedure fails
                
                insert into B_TBL_SCHEMA.bulk_load_log values(
                    v_table_name,
                    to_varchar(year_nbr),
                    :v_offset_nbr,
                    now()
                ); -- Insert into logging table to keep up with offset
                COMMIT;
            end for;
        end if;
    end for;
end;
4

2 回答 2

2

我认为在没有任何额外管理的情况下传输表的最简单和最快的方法是EXPORT带有BINARY格式选项的语句。这也可以通过架构上的 HANA 工作室上下文菜单或通过File -> Export... -> SAP HANA -> Catalog Objects,来完成File -> Import...

使用这种方法,您可以手动设置导出和导入的线程数,而无需额外的棘手代码。在目标系统中导入后,您将拥有与源系统中相同架构中具有相同结构的相同表,因此要将表移动到新名称或架构,您需要先将其复制到源中。导入后,您可以insert ... select ...将其导入目标表或在源系统中创建具有所需分区的副本表,或在目标中对导入的表进行重新分区并将其用作目标表。

有什么优点:

  • 您不需要系统之间的任何代码或 SDA 连接。
  • 您无需检查并重新检查您的代码是否正常工作并且所有数据都已传输且没有重复。
  • 您将在目标中拥有完全相同的表
  • 表以内部列格式并行导出和导入,因此中间不会出现元组重建(我不知道HANA SDA驱动程序是否足够聪明,可以通过SDA通道传输列并在目标中进行元组重建)。并且列和记录数影响不大,只是基数高的列需要时间,空的或基数小的列一眨眼就导出了。

最后,我通过 HANA studio(导入到本地机器)在我的系统中对此进行了测试:具有 130M 记录和 57 列的 5Gb 大小的表在 6 分钟内以 8 个线程导出。

您的原始方法如何:您应该始终禁用真正批量操作的删除索引和约束,并在最后重建/启用它们,以节省插入期间索引重建或约束检查的时间。

于 2021-01-21T10:15:08.970 回答
0

性能瓶颈可能是仅使用一个线程的 SDA 传输。

一种解决方法可能是:

  • 创建一个带有输入参数的函数来选择表 A 的子集。例如年份。
  • 将年份列表放入表变量中
  • 调用map_merge以强制并行并将输出引导到目标表中。

这是一些伪代码。

-- virtual table to source A over SDA: VT_TBL_A
-- target table B: TBL_B

CREATE OR REPLACE FUNCTION F_TBL_A_YEAR ( IN YEAR INT)
RETURNS TABLE ( ... )
as begin
   select * from VT_TBL_A where year(MY_DT_COLUMN) = :YEAR;
end;

DO
BEGIN
   DECLARE t_var LIKE TBL_B;

   --list of all 'partitions'
   years=select distinct year(MY_DT_COLUMN) as MY_YEAR from VT_TBL_A;

   --call the function for each year
   t_var = MAP_MERGE(:years, F_TBL_A_YEAR( :years.MY_YEAR));

   insert into TBL_B select * from :t_var;
   commit;
END;
 

在此运行时,我建议您检查系统视图 M_REMOTE_STATEMENTS 以确认记录是通过多个连接传输的

于 2021-01-21T08:34:44.283 回答