6

我有一个 csv 文件,我需要将其拆分为 n 个文件,以便每个拆分文件不应超过 100 mb。我需要在 Windows 批处理脚本中实现它。我尝试了以下方式,但由于我的未拆分文件以 GB 为单位,因此需要花费大量时间

@echo off
setlocal enableextensions enabledelayedexpansion
set count=1
set maxbytesize=100000000
set size=1
type NUL > output_1.csv

FOR /F  "tokens=*" %%i in (myfile.csv) do (
FOR /F "usebackq" %%A in ('!filename!_!count!.csv') do (
set size=%%~zA) 
if !size! LSS !maxbytesize! (
echo %%i>>!filename!_!count!.csv) else (
set /a count+=1 
echo %%i>>!filename!_!count!.csv 
))

请让我知道是否有更好的方法来实现这一目标。因为我的服务器是 Windows,所以我不能使用任何其他脚本语言

4

1 回答 1

2

假设您的线条大小大致相同,这将起到作用。

它的优点是它只有 2 遍解决方案,一个用于计算行数,另一个用于打印它们。

@rem echo off

@rem usage: batchsplit.bat <file-to-split> <size-limit>
@rem it will generate files named <file-to-split>.part_NNN

setlocal EnableDelayedExpansion

set FILE_TO_SPLIT=%1
set SIZE_LIMIT=%2

for /f %%s in ('dir /b %FILE_TO_SPLIT%') do set SIZE=%%~Zs
for /f %%c in ('type "%FILE_TO_SPLIT%"^|find "" /v /c') do set LINE_COUNT=%%c

set /a AVG_LINE_SIZE=%SIZE%/%LINE_COUNT%
set /a LINES_PER_PART=%SIZE_LIMIT%/%AVG_LINE_SIZE%

set "cmd=findstr /R /N "^^" %FILE_TO_SPLIT%"

for /f "tokens=1,2* delims=:" %%a in ('!cmd!') do @(
    set /a ccc = %%a / %LINES_PER_PART%
    echo %%b >> %FILE_TO_SPLIT%.part_!ccc!
)

将其另存为batchsplit.bat并使用以下命令运行它:

batchsplit.bat myfile.csv 100000000
于 2016-01-28T12:07:39.913 回答