3

我想定义一些处理自然语言文本的函数。这些函数中的每一个都为文本添加了一些“注释”,例如:

class Annotation(val begin: Int, val end: Int)
class Sentence(begin: Int, end: Int) extends Annotation(begin, end)
class Token(begin: Int, end: Int) extends Annotation(begin, end)

所以我可能有一个添加 Token 注释的 Tokenizer 函数,一个添加 Sentence 注释的 SentenceSegmenter 函数等。这些函数对它们的运行顺序有一些限制。例如,Tokenizer 可能需要 Sentence 注释,因此它必须在 SentenceSegmenter 之后运行。在这种情况下,如果我不小心以错误的顺序组合这些函数,我想得到一个编译错误。所以sentenceSegmenter andThen tokenizer应该编译,但tokenizer andThen sentenceSegmenter不应该。

下面是我的尝试。我为文本定义了一个特殊的容器类型,其中类型参数指定(通过复合类型)向文本添加了哪些注释,然后函数适当地指定它们的类型参数以确保它们在它们的先决条件之前不能运行是复合类型的一部分。

trait AnalyzedText[T] {
  def text: String
  def ++[U](annotations: Iterator[U]): AnalyzedText[T with U] 
}

val begin: (AnalyzedText[Any] => AnalyzedText[Any]) = identity
def sentenceSegmenter[T]: (AnalyzedText[T] => AnalyzedText[T with Sentence]) = ???
def tokenizer[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) = ???

// compiles
val pipeline = begin andThen sentenceSegmenter andThen tokenizer
// fails to compile -- good!
//val brokenPipeline = begin andThen tokenizer andThen sentenceSegmenter

到目前为止,一切都很好。当我尝试实际定义其中一个函数时,问题就出现了。例如,我想定义tokenizer如下内容:

def tokenizer[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) =
  text => text ++ "\\S+".r.findAllMatchIn(text.text).map(m => new Token(m.start, m.end))

但是 Scala 编译器无法弄清楚如何推断++方法的类型参数,除非我手动指定类型参数,否则text.++[Token](...)会产生错误:

type mismatch;  found: Iterator[Token]  required: Iterator[Nothing]

有没有办法推断出这个类型参数?或者,或者,我是否考虑错了问题?有没有更好的方法来在 Scala 中捕获这些类型的函数组合约束?

4

1 回答 1

2

这看起来很像一个错误。与此同时,有一个非常简单的解决方法——只需将您的处理器定义为一个方法并省略返回类型:

def tokenizer[T <: Sentence](text: AnalyzedText[T]) =
  text ++ "\\S+".r.findAllMatchIn(text.text).map(m => new Token(m.start, m.end))

现在您可以pipeline以完全相同的方式定义您的方法,并且 eta-expansion (§6.26.5) 会将方法转换为函数。


作为脚注:奇怪的是,鉴于上述定义,以下内容很好tokenizer

def tokFunc[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) =
  tokenizer _

我浏览了问题跟踪器,但没有发现任何明显相关的内容。如果您有时间,可能值得多研究一些并提交问题或通过电子邮件发送其中一个列表。

于 2013-07-10T00:47:55.503 回答