csv - 在斯坦福主题建模工具箱中读取 CSV 错误

Question

我正在尝试使用斯坦福主题建模工具箱 (TMT) 来尝试主题建模 [0]。我是 Scala 初学者。但是，我似乎无法通过读取 CSV 文件来准备我的数据集。这是我的代码

import scalanlp.io._;

val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

println(source.data.size);

这会引发以下错误

Stanford TMT\example-0-test.scala:6: error: not found: value IDColumn
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

同样，我在其他数据预处理功能（如 Tokenizer）上也遇到错误。这是代码

// Stanford TMT Example 0 - Basic data loading
// http://nlp.stanford.edu/software/tmt/0.4/


import scalanlp.io._;
val source = CSVFile("pubmed-oa-subset.csv") ;
println(source.data.size);

val tokenizer = {
  SimpleEnglishTokenizer()
 }

这是上述代码收到的错误。

error: not found: value SimpleEnglishTokenizer
  SimpleEnglishTokenizer()

我正在使用与 TMT 主页 [1] 上相同的 CSV 文件。此外，脚本和数据位于同一文件夹中。

问题是什么？我无法从 TMT 主页运行完全相同的测试示例。

[0] http://nlp.stanford.edu/software/tmt/tmt-0.4/

[1] http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv

score 0 · Accepted Answer

我在运行演示时遇到了一个问题，但它与你的不同。我的问题是由 CSV 文件中的混乱字符引起的（http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed -oa-subset.csv）。我在编辑器中以 UTF-8 格式打开 CSV 文件，并替换不可读的字符（它们表示为相同的符号），它运行正常。

您的问题似乎是缺少类文件或 CSV 文件格式错误。我不确定。但您可以尝试我的解决方案，我认为混乱的字符是从主页下载的 csv 文件中的常见问题。或者您可以检查可执行 jar 文件或 csv 文件的完整性。

如果上述解决方案不起作用。您可以在 stanford java nlp 邮件列表中询问。 https://mailman.stanford.edu/mailman/listinfo/java-nlp-user

csv - 在斯坦福主题建模工具箱中读取 CSV 错误

1 回答 1

Related

Reference