我想通过使用许多 PDF 文件来训练我自己的自定义 Glove 表示。我怎样才能做到这一点 ?有什么方法可以使用 POS 标记和依赖解析等概念吗?你能建议任何链接来实现它吗?
问问题
391 次
1 回答
1
您的问题过于宽泛,无法给出任何严格的答案,但您当然可以按照您的描述进行。
您将首先查看用于从 PDF 中提取纯文本的库。
一些 word2vec 项目已经基于单词标记训练了单词向量,这些单词标记已经用 POS 标签或依赖定义的上下文进行了扩展,其潜在好处取决于您的目标。例如,参见 Levy & Goldberg 关于基于依赖的嵌入的论文:
https://levyomer.wordpress.com/2014/04/25/dependency-based-word-embeddings/
于 2018-12-30T01:09:51.933 回答