目标是科学文本的句法解析。首先,我需要对此类文本的句子进行词性标注。文本来自 arxiv.org。所以它们最初是在 LaTeX 中的。从 LaTeX 文档中提取文本时,数学表达式可以转换为 MathML(或者可能是其他格式,但我更喜欢 MathML,因为这项工作是为了创建特定的网络应用程序,而 MathML 是一个方便的工具)。
我唯一的想法是用一些自然语言的短语代替数学表达式,然后使用一些实现的算法进行 pos-tagging。所以问题是如何实现这种替换,或者一般来说,如何实现对文本的后标记?