6

我试图理解为什么当我导入一个大约 16MB 的文件作为变量时,PowerShell 的内存会膨胀得如此之多。我可以理解该变量周围有额外的内存结构,但我只是想了解它为什么这么高。这就是我在下面所做的 - 只是一个任何人都可以运行的另一个脚本的简化片段。

笔记/问题

  1. 不抱怨,试图理解为什么这么多的使用,有没有更好的方法来做到这一点或更有效地管理内存以尊重我正在运行它的系统。
  2. 同样的行为发生在 PowerShell 5.1 和 PowerShell 7 上,RC3 刚刚发布。我不认为这是一个错误,只是另一个让我了解更多信息的机会。
  3. 我的总体目标是运行一个 foreach 循环来检查另一个小得多的数组与该数组是否匹配。

我的测试代码

Invoke-WebRequest -uri "http://s3.amazonaws.com/alexa-static/top-1m.csv.zip" -OutFile C:\top-1m.csv.zip

Expand-Archive -Path C:\top-1m.csv.zip -DestinationPath C:\top-1m.csv

$alexaTopMillion = Import-Csv -Path C:\top-1m.csv

致任何回答此问题的人:感谢您抽出宝贵时间帮助我每天了解更多信息!

4

2 回答 2

9

一般来说iRon在对该问题的评论中的建议值得关注(具体问题在本节后面的部分中解决):

为了保持较低的内存使用率,请在管道中使用对象,而不是先将它们收集到内存中- 如果可行的话。

也就是说,而不是这样做:

# !! Collects ALL objects in memory, as an array.
$rows = Import-Csv in.csv
foreach ($row in $rows) { ... }

做这个:

# Process objects ONE BY ONE.
# As long as you stream to a *file* or some other output stream
# (as opposed to assigning to a *variable*), memory use should remain constant,
# except for temporarily held memory awaiting garbage collection.
Import-Csv in.csv | ForEach-Object { ... } # pipe to Export-Csv, for instance

但是,即使那样,您似乎也可以用非常大的文件耗尽内存- 请参阅这个问题- 可能与尚未被垃圾收集的不再需要的对象的内存积累有关;[GC]::Collect()因此,定期调用ForEach-Object脚本块可能会解决问题。


如果您确实需要Import-Csv 一次收集内存中输出的所有对象:

您观察到的过度内存使用来自于[pscustomobject]实例(Import-Csv的输出类型)的实现方式,如GitHub 问题 #7603(已添加重点)中所述:

内存压力很可能来自PSNoteProperty[这是如何[pscustomobject]实现属性]的成本。每个PSNoteProperty都有 48 字节的开销,所以当你只为每个属性存储几个字节时,就会变得庞大

同一问题提出了一种减少内存消耗的解决方法(如Wasif Hasan 的回答中所示):

  • 读取第一个 CVS 行并动态创建一个表示行的自定义类Invoke-Expression,使用.

    • 注意:虽然在这里使用它是安全的,Invoke-Expression但通常应避免使用。

    • 如果您事先知道列结构,则可以class通过常规方式创建自定义,这也允许您为属性使用适当的数据类型(否则默认为所有字符串);例如,将适当的属性定义为[int]( System.Int32) 可进一步减少内存消耗。

  • 管道Import-Csv到一个ForEach-Object调用,它将每个[pscustomobject]创建的类转换为动态创建的类的一个实例,从而更有效地存储数据。

注意:这种解决方法是以大大降低执行速度为代价的。

$csvFile = 'C:\top-1m.csv'

# Dynamically define a custom class derived from the *first* row
# read from the CSV file.
# Note: While this is a legitimate use of Invoke-Expression, 
#       it should generally be avoided.
"class CsvRow { 
 $((Import-Csv $csvFile | Select-Object -first 1).psobject.properties.Name -replace '^', '[string] $$' -join ";") 
}" | Invoke-Expression

# Import all rows and convert them from [pscustomobject] instances 
# to [CsvRow] instances to reduce memory consumption.
# Note: Casting the Import-Csv call directly to [CsvRow[]] would be noticeably
#       faster, but increases *temporary* memory pressure substantially.
$alexaTopMillion = Import-Csv $csvFile | ForEach-Object { [CsvRow] $_ }

从长远来看,一个更快的更好解决方案是支持输出具有给定输出类型的解析行Import-Csv,例如,通过-OutputType参数,如GitHub 问题 #8862中所建议的那样
如果您对此感兴趣,请在此处显示您对提案的支持。


内存使用基准:

以下代码将内存使用与正常Import-Csv导入([pscustomobject]s 数组)与解决方法(自定义类实例数组)进行比较。

测量结果并不准确,因为 PowerShell 的进程工作内存被简单地查询,这可以显示后台活动的影响,但它可以粗略地了解使用自定义类需要多少内存。

示例输出,显示自定义类解决方法仅需要大约五分之一的内存,下面使用示例 10 列 CSV 输入文件和大约 166,000 行 - 具体比率取决于输入行和列的数量:

MB Used Command
------- -------
 384.50  # normal import…
  80.48  # import via custom class…

基准代码:

# Create a sample CSV file with 10 columns about 16 MB in size.
$tempCsvFile = [IO.Path]::GetTempFileName()
('"Col1","Col2","Col3","Col4","Col5","Col6","Col7","Col8","Col9","Col10"' + "`n") | Set-Content -NoNewline $tempCsvFile
('"Col1Val","Col2Val","Col3Val","Col4Val","Col5Val","Col6Val","Col7Val","Col8Val","Col9Val","Col10Val"' + "`n") * 1.662e5 |
  Add-Content $tempCsvFile

try {

  { # normal import
    $all = Import-Csv $tempCsvFile
  },
  { # import via custom class
    "class CsvRow {
      $((Import-Csv $tempCsvFile | Select-Object -first 1).psobject.properties.Name -replace '^', '[string] $$' -join ";")
    }" | Invoke-Expression
    $all = Import-Csv $tempCsvFile | ForEach-Object { [CsvRow] $_ }
  } | ForEach-Object {
    [gc]::Collect(); [gc]::WaitForPendingFinalizers() # garbage-collect first.
    $before = (Get-Process -Id $PID).WorkingSet64
    # Execute the command.
    & $_
    # Measure memory consumption and output the result.
    [pscustomobject] @{
      'MB Used' = ('{0,4:N2}' -f (((Get-Process -Id $PID).WorkingSet64 - $before) / 1mb)).PadLeft(7)
      Command = $_
    }
  }

} finally {
  Remove-Item $tempCsvFile
}
于 2020-02-22T19:45:55.027 回答
2

您可以为每个项目生成一个类型,如此处所述https://github.com/PowerShell/PowerShell/issues/7603

Import-Csv "C:\top-1m.csv" | Select-Object -first 1 | ForEach {$_.psobject.properties.name} | Join-String -Separator "`r`n" -OutputPrefix "class MyCsv {`r`n" -OutputSuffix "`n}" -Property {"`t`$$_"}  | Invoke-Expression
Import-Csv "C:\top-1m.csv" | Foreach {[MyCsv]$_} | Export-Csv "C:\alexa_top.csv"

这是相当有效的。您可以使用 Measure-Command 测量时间。

如果您使用 Get-Content,它会非常非常慢。Raw 参数提高了速度。但是内存压力变大了。

甚至 ReadCount 参数设置要读取的每个进程要读取的行数。这甚至比使用 Raw 参数还要快。

甚至可以使用 Switch 语句读取它,例如:

Switch -File "Path" {default {$_}}

它甚至更快!但遗憾的是它甚至使用了更多的内存。

于 2020-02-22T16:30:49.623 回答