3

我有一个 CSV 文件,其中包含一个数据矩阵。该矩阵的第一列包含一个标签,其他列包含与标签相关联的值(即第一列)。现在我想读取这个 CSV 文件并将数据放入 Scala 中的 Map[String,Array[String]] 中。Map 的键应该是标签(这在第一列中),Map 值应该是其他值(这些在其余列中)。要读取 CSV 文件,我使用 opencsv。

val isr: InputStreamReader = new InputStreamReader(getClass.getResourceAsStream("test.csv"))`  
val data: IndexedSeq[Array[String]] = new CSVReader(isr).readAll.asScala.toIndexedSeq`

现在我有一个IndexedSeq[Array[String]]. 我可以在这里使用这种功能方式还是应该更好地选择迭代方式,因为一次读取所有数据会变得很复杂?好吧,现在我需要从这个 IndexedSeq 创建 Map。因此,我将 IndexedSeq 映射到 IndexedSeq 以Tupel[String,Array[String]]将标签值与其余值分开,然后从中创建 Map。

val result: Map[String, Array(String) = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail)).toMap

这适用于小示例,但是当我使用它来读取 CSV 文件的内容时,它会引发 java.lang.RuntimeException。我还尝试使用 groupBy 创建地图或创建多个地图(每行一个),然后将它们减少为一个大地图,但没有成功。我还阅读了关于 stackoverflow 的另一篇文章,有人认为 toMap 的复杂度为 O(n²)。我在 StackTrace 的末尾得到了这个(整个 Stacktrace 很长)。

Exception in thread "main" java.lang.reflect.InvocationTargetException      
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:601)
    at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.runSingleTest(JavaSpecs2Runner.java:130)  
    at org.jetbrains.plugins.scala.testingSupport.specs2.JavaSpecs2Runner.main(JavaSpecs2Runner.java:76)  
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:601)  
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:120)  
    Caused by: java.lang.RuntimeException: can not create specification: com.test.MyClassSpec  
    at scala.sys.package$.error(package.scala:27)  
    at org.specs2.specification.SpecificationStructure$.createSpecification(BaseSpecification.scala:96)   
    at org.specs2.runner.ClassRunner.createSpecification(ClassRunner.scala:64)  
    at org.specs2.runner.ClassRunner.start(ClassRunner.scala:35)  
    at org.specs2.runner.ClassRunner.main(ClassRunner.scala:28)  
    at org.specs2.runner.NotifierRunner.main(NotifierRunner.scala:24)  
    ... 11 more  
    Process finished with exit code 1

有人知道从 CSV 文件中的数据创建地图的另一种方法吗?

4

3 回答 3

10

这对我有用:

import scala.io.Source
Source.fromFile("some_very_big_file").getLines.map(_.split(";")).count(_ => true)

splitCSV 文件的每一行分解为简单记录。count仅用于检查文件是否真的被读取。

所以现在我们可以用它来读入一个真正的 CSV 文件(虽然我只用一个小文件测试过):

scala> val content=Source.fromFile("test.csv").getLines.map(_.split(";"))
content: Iterator[Array[java.lang.String]] = non-empty iterator

scala> val header=content.next
header: Array[java.lang.String] = Array(Elements, Duration)

scala> content.map(header.zip(_).toMap)
res40: Iterator[scala.collection.immutable.Map[java.lang.String,java.lang.String]] = non-empty iterator

这适用于简单的 CSV 文件。如果您有更复杂的(例如条目溢出多行),您可能必须使用更复杂的 CSV 解析器(例如Apache Commons CSV。但通常这样的 aperser 也会给您某种迭代器,您可以使用相同的map(... zip ...)功能在上面。

于 2013-06-21T15:51:36.630 回答
1

您可以跳过List元组的中介,直接像这样构建地图:

val result: Map[String, Array[String]] = data.filter(e => !e.isEmpty).map(e => (e.head,e.tail))(collection.breakOut)

不确定这是否会解决您的问题,但您确实询问是否有其他方法来构建地图。您可以在此处阅读更多信息collection.breakOut

Scala:List[Tuple3] 到 Map[String,String]

于 2013-06-21T14:57:29.847 回答
0

不完全符合您的要求,但这是使用我自己的狗粮的方法:

val data = CsvParser[String,Int,Double].parseFile("sample.csv")
data: org.catch22.collections.immutable.CollSeq3[String,Int,Double] = 
CollSeq((Jan,10,22.33),
        (Feb,20,44.2),
        (Mar,25,55.1))

scala> val lookup=(data._1 zip data).toMap
lookup: scala.collection.immutable.Map[String,Product3[String,Int,Double]] = Map(Jan -> (Jan,10,22.33), Feb -> (Feb,20,44.2), Mar -> (Mar,25,55.1))

scala> lookup("Feb")
res0: Product3[String,Int,Double] = (Feb,20,44.2)

产品系列

于 2013-06-21T23:40:18.667 回答