0

我需要找到一种方法来标记文本中对出版物的引用。我们一直在通过正则表达式执行此操作,但它不适用于这些新模式。

一些例子(语言是德语):

Herzog(2012 年 8 月),Einkommensteuerskriptum Band 1,S 8

Achatz/Bieber 在 Achatz/Kirchmayr, Körperschaftsteuergesetz (2011)

Heinrich in Quantschnigg/Renner/Schellmann/Stöger, Die Körperschaftsteuer (2013) § 7 Rz 32

Raab/Renner in Quantschnigg/Renner/Schellmann/Stöger/Vock, Die Körperschaftsteuer, 24. Lfg., § 8 Tz 292,293

Quantschnigg/Renner/Schellmann/Stöger/Vock (Hrsg), KStG 23 (2013) § 13 Rz 67

因此,它主要以作者姓名和出版物的标题开始,但随后变得非常多样化。在示例中它可能看起来不那么糟糕,但我可以给出更多看起来不同的东西。

所以我认为这可能是机器学习的一项任务。然而,在该领域的经验很少,我发现很难找到合适的技术。

我找到了 POS 标记,但这似乎不是这里的方法。我也偶然发现了 upton CRF,但上面几乎没有什么材料可以让像我这样的初学者开始。

我已经在 sklearn 中进行了一些分类和回归,但仅此而已。

谁能指出我正确的方向?

4

0 回答 0