scala - 如何读取 CSV 文件并将其内容放入 Scala 中的 Map 中？

Question

我有一个 CSV 文件，其中包含一个数据矩阵。该矩阵的第一列包含一个标签，其他列包含与标签相关联的值（即第一列）。现在我想读取这个 CSV 文件并将数据放入 Scala 中的 Map[String,Array[String]] 中。Map 的键应该是标签（这在第一列中），Map 值应该是其他值（这些在其余列中）。要读取 CSV 文件，我使用 opencsv。

val isr: InputStreamReader = new InputStreamReader(getClass.getResourceAsStream("test.csv"))`  
val data: IndexedSeq[Array[String]] = new CSVReader(isr).readAll.asScala.toIndexedSeq`

现在我有一个IndexedSeq[Array[String]]. 我可以在这里使用这种功能方式还是应该更好地选择迭代方式，因为一次读取所有数据会变得很复杂？好吧，现在我需要从这个 IndexedSeq 创建 Map。因此，我将 IndexedSeq 映射到 IndexedSeq 以Tupel[String,Array[String]]将标签值与其余值分开，然后从中创建 Map。

val result: Map[String, Array(String) = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail)).toMap

这适用于小示例，但是当我使用它来读取 CSV 文件的内容时，它会引发 java.lang.RuntimeException。我还尝试使用 groupBy 创建地图或创建多个地图（每行一个），然后将它们减少为一个大地图，但没有成功。我还阅读了关于 stackoverflow 的另一篇文章，有人认为 toMap 的复杂度为 O(n²)。我在 StackTrace 的末尾得到了这个（整个 Stacktrace 很长）。

Exception in thread "main" java.lang.reflect.InvocationTargetException      
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:601)
    at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.runSingleTest(JavaSpecs2Runner.java:130)  
    at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.main(JavaSpecs2Runner.java:76)  
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:601)  
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:120)  
    Caused by: java.lang.RuntimeException: can not create specification: com.test.MyClassSpec  
    at scala.sys.package$.error(package.scala:27)  
    at org.specs2.specification.SpecificationStructure$.createSpecification(BaseSpecification.scala:96)   
    at org.specs2.runner.ClassRunner.createSpecification(ClassRunner.scala:64)  
    at org.specs2.runner.ClassRunner.start(ClassRunner.scala:35)  
    at org.specs2.runner.ClassRunner.main(ClassRunner.scala:28)  
    at org.specs2.runner.NotifierRunner.main(NotifierRunner.scala:24)  
    ... 11 more  
    Process finished with exit code 1

有人知道从 CSV 文件中的数据创建地图的另一种方法吗？

score 10 · Accepted Answer

这对我有用：

import scala.io.Source
Source.fromFile("some_very_big_file").getLines.map(_.split(";")).count(_ => true)

将splitCSV 文件的每一行分解为简单记录。count仅用于检查文件是否真的被读取。

所以现在我们可以用它来读入一个真正的 CSV 文件（虽然我只用一个小文件测试过）：

scala> val content=Source.fromFile("test.csv").getLines.map(_.split(";"))
content: Iterator[Array[java.lang.String]] = non-empty iterator

scala> val header=content.next
header: Array[java.lang.String] = Array(Elements, Duration)

scala> content.map(header.zip(_).toMap)
res40: Iterator[scala.collection.immutable.Map[java.lang.String,java.lang.String]] = non-empty iterator

这适用于简单的 CSV 文件。如果您有更复杂的（例如条目溢出多行），您可能必须使用更复杂的 CSV 解析器（例如Apache Commons CSV。但通常这样的 aperser 也会给您某种迭代器，您可以使用相同的map(... zip ...)功能在上面。

score 1 · Accepted Answer

您可以跳过List元组的中介，直接像这样构建地图：

val result: Map[String, Array[String]] = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail))(collection.breakOut)

不确定这是否会解决您的问题，但您确实询问是否有其他方法来构建地图。您可以在此处阅读更多信息collection.breakOut：

Scala：List[Tuple3] 到 Map[String,String]

score 0 · Accepted Answer

不完全符合您的要求，但这是使用我自己的狗粮的方法：

val data = CsvParser[String,Int,Double].parseFile("sample.csv")
data: org.catch22.collections.immutable.CollSeq3[String,Int,Double] = 
CollSeq((Jan,10,22.33),
        (Feb,20,44.2),
        (Mar,25,55.1))

scala> val lookup=(data._1 zip data).toMap
lookup: scala.collection.immutable.Map[String,Product3[String,Int,Double]] = Map(Jan -> (Jan,10,22.33), Feb -> (Feb,20,44.2), Mar -> (Mar,25,55.1))

scala> lookup("Feb")
res0: Product3[String,Int,Double] = (Feb,20,44.2)

产品系列

scala - 如何读取 CSV 文件并将其内容放入 Scala 中的 Map 中？

3 回答 3

Related

Reference