12

我正在MS Excel通过Powershell. 每个 excel 文档都有可能包含大约 1000 行数据。

目前,此脚本似乎以Excel每 0.6 秒 1 条记录的速率读取文件并将值写入屏幕。乍一看,这似乎非常缓慢。

这是我第一次用 读取Excel文件Powershell,这是常态吗?有没有更快的方法让我读取和解析Excel数据?

这是脚本输出(为便于阅读而修剪)

PS P:\Powershell\ExcelInterfaceTest> .\WRIRMPTruckInterface.ps1 test.xlsx
3/20/2013 4:46:01 PM
---------------------------
2   078110
3   078108
4   078107
5   078109
<SNIP>
242   078338
243   078344
244   078347
245   078350
3/20/2013 4:48:33 PM
---------------------------
PS P:\Powershell\ExcelInterfaceTest>

这是Powershell脚本:

########################################################################################################
# This is a common function I am using which will release excel objects
########################################################################################################
function Release-Ref ($ref) {
    ([System.Runtime.InteropServices.Marshal]::ReleaseComObject([System.__ComObject]$ref) -gt 0)
    [System.GC]::Collect()
    [System.GC]::WaitForPendingFinalizers()
}

########################################################################################################
# Variables
########################################################################################################

########################################################################################################
# Creating excel object
########################################################################################################
$objExcel = new-object -comobject excel.application 

# Set to false to not open the app on screen.
$objExcel.Visible = $False

########################################################################################################
# Directory location where we have our excel files
########################################################################################################
$ExcelFilesLocation = "C:/ShippingInterface/" + $args[0]

########################################################################################################
# Open our excel file
########################################################################################################
$UserWorkBook = $objExcel.Workbooks.Open($ExcelFilesLocation) 

########################################################################################################
# Here Item(1) refers to sheet 1 of of the workbook. If we want to access sheet 10, we have to modify the code to Item(10)
########################################################################################################
$UserWorksheet = $UserWorkBook.Worksheets.Item(2)

########################################################################################################
# This is counter which will help to iterrate trough the loop. This is simply a row counter
# I am starting row count as 2, because the first row in my case is header. So we dont need to read the header data
########################################################################################################
$intRow = 2

$a = Get-Date
write-host $a
write-host "---------------------------"

Do {

    # Reading the first column of the current row
    $TicketNumber = $UserWorksheet.Cells.Item($intRow, 1).Value()

    write-host $intRow " " $TicketNumber    

    $intRow++

} While ($UserWorksheet.Cells.Item($intRow,1).Value() -ne $null)

$a = Get-Date
write-host $a
write-host "---------------------------"

########################################################################################################
# Exiting the excel object
########################################################################################################
$objExcel.Quit()

########################################################################################################
#Release all the objects used above
########################################################################################################
$a = Release-Ref($UserWorksheet)
$a = Release-Ref($UserWorkBook) 
$a = Release-Ref($objExcel)
4

2 回答 2

11

Robert M. Toups, Jr.在他的博客文章Speed Up Reading Excel Files in PowerShell中解释说,虽然加载到 PowerShell 的速度很快,但实际上读取 Excel 单元格却非常慢。另一方面,PowerShell 可以非常快速地读取文本文件,因此他的解决方案是在 PowerShell 中加载电子表格,使用 Excel 的原生 CSV 导出过程将其保存为 CSV 文件,然后使用 PowerShell 的标准Import-Csvcmdlet 以极快的速度处理数据. 他报告说,这使他的导入过程加快了 20 倍!

利用 Toups 的代码,我创建了一个Import-Excel函数,可以让您非常轻松地导入电子表格数据。我的代码添加了在 Excel 工作簿中选择特定工作表的功能,而不仅仅是使用默认工作表(即保存文件时的活动工作表)。如果省略该–SheetName参数,它将使用默认工作表。

function Import-Excel([string]$FilePath, [string]$SheetName = "")
{
    $csvFile = Join-Path $env:temp ("{0}.csv" -f (Get-Item -path $FilePath).BaseName)
    if (Test-Path -path $csvFile) { Remove-Item -path $csvFile }

    # convert Excel file to CSV file
    $xlCSVType = 6 # SEE: http://msdn.microsoft.com/en-us/library/bb241279.aspx
    $excelObject = New-Object -ComObject Excel.Application  
    $excelObject.Visible = $false 
    $workbookObject = $excelObject.Workbooks.Open($FilePath)
    SetActiveSheet $workbookObject $SheetName | Out-Null
    $workbookObject.SaveAs($csvFile,$xlCSVType) 
    $workbookObject.Saved = $true
    $workbookObject.Close()

     # cleanup 
    [System.Runtime.Interopservices.Marshal]::ReleaseComObject($workbookObject) |
        Out-Null
    $excelObject.Quit()
    [System.Runtime.Interopservices.Marshal]::ReleaseComObject($excelObject) |
        Out-Null
    [System.GC]::Collect()
    [System.GC]::WaitForPendingFinalizers()

    # now import and return the data 
    Import-Csv -path $csvFile
}

Import-Excel 使用这些补充功能:

function FindSheet([Object]$workbook, [string]$name)
{
    $sheetNumber = 0
    for ($i=1; $i -le $workbook.Sheets.Count; $i++) {
        if ($name -eq $workbook.Sheets.Item($i).Name) { $sheetNumber = $i; break }
    }
    return $sheetNumber
}

function SetActiveSheet([Object]$workbook, [string]$name)
{
    if (!$name) { return }
    $sheetNumber = FindSheet $workbook $name
    if ($sheetNumber -gt 0) { $workbook.Worksheets.Item($sheetNumber).Activate() }
    return ($sheetNumber -gt 0)
}
于 2013-03-21T14:41:00.537 回答
9

如果数据是静态的(不涉及公式,只是单元格中的数据),您可以将电子表格作为 ODBC 数据源访问并对其执行 SQL(或至少类似于 SQL)查询。查看此参考以设置您的连接字符串(工作簿中的每个工作表将是本练习的“表”),并使用System.Data与常规数据库相同的查询它(Don Jones为此编写了一个包装函数这可能会有所帮助)。

应该比启动 Excel 并逐个单元格地挑选要快。

于 2013-03-21T01:05:03.090 回答