1

我在这个网页上使用 import.io 的 Magic API:

http://www.legifrance.gouv.fr/affichSarde.do?reprise=true&page=1&idSarde=SARDOBJT000007104398&ordre=null&nature=null&g=ls

某些类型的信息/字段被完美提取。

但是提取器:

  • 将 NOR 编号字段(例如:NOR DEVL1502938A)与表示同一列中的页数(例如:10)的数字混合。可能是因为它们都是链接文本(标签如下: a title="[...]" href="[...]"

  • 然后将书目参考字段(例如:JO du 04/04/2015 texte : 0080;10 pages 6232/6241)与 NOR 编号字段混合。这对我来说似乎很奇怪,因为 NOR 系统地位于参考文献之前,并且它们不在网页中的同一行(在书目参考字段之前有一个br/标签)

  • 经常无法加载文本摘要的内容(例如:(Application de l'art. R. 411-1 et s. du code de l'environnement - Abrogation de l'arrêté du 15 mai 1986 fixant sur tout ou partie du领土国家保护措施 de oiseaux représentés dans le département de la Guyane))在一栏中。相反,它将它分散到各个列中。我看到在span class="noir"标签之后插入em标签时会发生这种情况。例子 :

    应用艺术。R. 213-49-2 du code de l'environnement - Abrogation de l'arrêté du 10 août 2011 relatif à la définition du périmètre de l'Etablissement public du Marais poitevin)

我曾尝试使用新提取器或通过特殊的 Google 请求结果网页https://www.google.fr/search?q=PROTECTION+FAUNE+et+FLORE+SAUVAGES+site:legifrance.gouv 解决问题。 fr+文件类型:pdf。无济于事。谷歌网页替代方案提供了更糟糕的结果。

我欢迎任何想法:

  • 关于第二个问题的原因

  • 以及如何克服 Legifrance 页面上的三个问题。

非常感谢您阅读到最后:-)

PS:请注意,我主要作为研究人员工作。虽然我能理解他们的逻辑,但我对 Regex 或 Json 并不熟悉。因此,如果需要使用它们,您能否解释一下背后的逻辑或显示足够的理想代码部分,以便我可以有效地复制它?

4

0 回答 0