我在这个网页上使用 import.io 的 Magic API:
某些类型的信息/字段被完美提取。
但是提取器:
将 NOR 编号字段(例如:NOR DEVL1502938A)与表示同一列中的页数(例如:10)的数字混合。可能是因为它们都是链接文本(标签如下: a title="[...]" href="[...]")
然后将书目参考字段(例如:JO du 04/04/2015 texte : 0080;10 pages 6232/6241)与 NOR 编号字段混合。这对我来说似乎很奇怪,因为 NOR 系统地位于参考文献之前,并且它们不在网页中的同一行(在书目参考字段之前有一个br/标签)
经常无法加载文本摘要的内容(例如:(Application de l'art. R. 411-1 et s. du code de l'environnement - Abrogation de l'arrêté du 15 mai 1986 fixant sur tout ou partie du领土国家保护措施 de oiseaux représentés dans le département de la Guyane))在一栏中。相反,它将它分散到各个列中。我看到在span class="noir"标签之后插入em标签时会发生这种情况。例子 :
应用艺术。R. 213-49-2 du code de l'environnement - Abrogation de l'arrêté du 10 août 2011 relatif à la définition du périmètre de l'Etablissement public du Marais poitevin)
我曾尝试使用新提取器或通过特殊的 Google 请求结果网页https://www.google.fr/search?q=PROTECTION+FAUNE+et+FLORE+SAUVAGES+site:legifrance.gouv 解决问题。 fr+文件类型:pdf。无济于事。谷歌网页替代方案提供了更糟糕的结果。
我欢迎任何想法:
关于第二个问题的原因
以及如何克服 Legifrance 页面上的三个问题。
非常感谢您阅读到最后:-)
PS:请注意,我主要作为研究人员工作。虽然我能理解他们的逻辑,但我对 Regex 或 Json 并不熟悉。因此,如果需要使用它们,您能否解释一下背后的逻辑或显示足够的理想代码部分,以便我可以有效地复制它?