php - PHP Simple HTML DOM 或 Python-BSoup：哪一个是更简单的方法？

Question

我目前正在研究一种方法来解析一个包含欧洲基金会数据的网站。

http://www.foundationfinder.ch/拥有 790 个基金会的数据集。所有数据均可免费使用 - 不受版权限制。

目标是什么：我想解析数据并将其保存在本地：为了更好的检索和更方便的使用方式：也许可以将其存储到 Calc / 甚至更好的 MySQL-Database。

问题：用 Perl 解析 HTML 的最简单方法是什么我应该使用 LWP 还是 Mechanize：哪个更简单！？

有朋友叫我试试Python！？美丽的汤。我想到了一种使用 Perl LWP 或 Python Beautiful Soup 的方法。其他方法来解析这样一个我看不到的网站。好的，有一种方法 - 使用 PHP。当然，我们可以通过某种方式使用 PHP（和 Curl）

哪种方法最好。Perl 与 LWP 还是机械化？还是 Python 的……？

除了语言问题：任何人都可以在第一步中帮助我。- 帮助进入赛道！？我期待收到您的来信

认为零

score 1 · Accepted Answer

我的两分钱是你必须根据你最了解的语言来选择。如果我是的话，我会使用 Python，它有很多库和工具，而且需要几个小时的工作。

但是，如果您擅长 Perl 或 PHP，则必须选择其中一种语言。大多数脚本语言都有可以完成任务的库。

score 1 · Accepted Answer

你擅长哪个？PHP 还是 Python？当涉及到这种事情时，肯定会有更多的比较讨论，但我们不要这样做。去选择你更了解的那个。可以说 Perl 甚至 Python 或 PHP，但每种都有自己的优势。最后，您将成为编码它的人，因此请选择您更了解的人。

score 1 · Accepted Answer

所有数据均可免费使用 - 不受版权限制。

我不会那么肯定。他们不遗余力地混淆联系人数据，以便“数据不能存储在表格中以生成邮件列表”。基础上的细节不是 HTML，而是图像。此外，它们将搜索结果限制为最多 100 个。如果您懂德语，则应阅读 Informationen 中的“Daten Schutz”（数据保护）部分。

如果您只想将基金会的名称链接到网站允许您使用的搜索条件，那么请查看其他人的答案。如果您确实想存储详细信息，那么您将违反网站的意图，并且需要咨询律师以了解他们的陈述是否具有法律价值。此外，您将需要OCR将图像恢复为可用数据。

3 回答 3