2

目标是科学文本的句法解析。首先,我需要对此类文本的句子进行词性标注。文本来自 arxiv.org。所以它们最初是在 LaTeX 中的。从 LaTeX 文档中提取文本时,数学表达式可以转换为 MathML(或者可能是其他格式,但我更喜欢 MathML,因为这项工作是为了创建特定的网络应用程序,而 MathML 是一个方便的工具)。

我唯一的想法是用一些自然语言的短语代替数学表达式,然后使用一些实现的算法进行 pos-tagging。所以问题是如何实现这种替换,或者一般来说,如何实现对文本的后标记?

4

2 回答 2

0

用一个唯一的单词替换所有数学公式似乎是要走的路。

于 2013-04-27T01:24:55.000 回答
0

我在斯坦福标记器上实现了一个公式替换算法,它工作得很好。正如 abecadel 所写的那样,要走的路是用一个独特但新的单词替换每个公式,我使用了一个单词和一个哈希“formula-duwkziah”的组合。

于 2014-02-13T15:51:26.363 回答