我想使用 U-SQL 从放置在 Azure Data Lake Store 中的 CSV 数据中删除重叠的持续时间,然后合并这些行。数据集包含开始时间和结束时间以及每条记录的其他几个属性。这是一个例子:
Start Time - End Time - Usar Name
5:00 AM - 6:00 AM - ABC
5:00 AM - 6:00 AM - XYZ
8:00 AM - 9:00 AM - ABC
8:00 AM - 10:00 AM - ABC
10:00 AM - 2:00 PM - ABC
7:00 AM - 11:00 AM - ABC
9:00 AM - 11:00 AM - ABC
11:00 AM - 11:30 AM - ABC
去除重叠后,输出数据集将如下所示:
Start Time - End Time - Usar Name
5:00 AM - 6:00 AM - ABC
5:00 AM - 6:00 AM - XYZ
7:00 AM - 2:00 PM - ABC
请注意,CSV 包含大量数据,并且包含数 GB 的大小。我正在尝试解决这个问题,但没有运气。我想避免为 Azure Data Lake Analytics 作业使用 U-SQL 用户定义的运算符,并从 U-SQL 中寻找一些有效的解决方案。