regex - importi.io ：一些数据未导入或混合在同一列中

Question

我在这个网页上使用 import.io 的 Magic API：

某些类型的信息/字段被完美提取。

但是提取器：

将 NOR 编号字段（例如：NOR DEVL1502938A）与表示同一列中的页数（例如：10）的数字混合。可能是因为它们都是链接文本（标签如下： a title="[...]" href="[...]"）
然后将书目参考字段（例如：JO du 04/04/2015 texte : 0080;10 pages 6232/6241）与 NOR 编号字段混合。这对我来说似乎很奇怪，因为 NOR 系统地位于参考文献之前，并且它们不在网页中的同一行（在书目参考字段之前有一个br/标签）
经常无法加载文本摘要的内容（例如：（Application de l'art. R. 411-1 et s. du code de l'environnement - Abrogation de l'arrêté du 15 mai 1986 fixant sur tout ou partie du领土国家保护措施 de oiseaux représentés dans le département de la Guyane)）在一栏中。相反，它将它分散到各个列中。我看到在span class="noir"标签之后插入em标签时会发生这种情况。例子：

应用艺术。R. 213-49-2 du code de l'environnement - Abrogation de l'arrêté du 10 août 2011 relatif à la définition du périmètre de l'Etablissement public du Marais poitevin)

我曾尝试使用新提取器或通过特殊的 Google 请求结果网页https://www.google.fr/search?q=PROTECTION+FAUNE+et+FLORE+SAUVAGES+site:legifrance.gouv 解决问题。 fr+文件类型：pdf。无济于事。谷歌网页替代方案提供了更糟糕的结果。

我欢迎任何想法：

非常感谢您阅读到最后:-)

PS：请注意，我主要作为研究人员工作。虽然我能理解他们的逻辑，但我对 Regex 或 Json 并不熟悉。因此，如果需要使用它们，您能否解释一下背后的逻辑或显示足够的理想代码部分，以便我可以有效地复制它？

0 回答 0