2

我目前正在研究一种方法来解析一个包含欧洲基金会数据的网站。

http://www.foundationfinder.ch/拥有 790 个基金会的数据集。所有数据均可免费使用 - 不受版权限制。

目标是什么:我想解析数据并将其保存在本地:为了更好的检索和更方便的使用方式:也许可以将其存储到 Calc / 甚至更好的 MySQL-Database。

问题:用 Perl 解析 HTML 的最简单方法是什么我应该使用 LWP 还是 Mechanize:哪个更简单!?

有朋友叫我试试Python!?美丽的汤。我想到了一种使用 Perl LWP 或 Python Beautiful Soup 的方法。其他方法来解析这样一个我看不到的网站。好的,有一种方法 - 使用 PHP。当然,我们可以通过某种方式使用 PHP(和 Curl)

哪种方法最好。Perl 与 LWP 还是机械化?还是 Python 的……?

除了语言问题:任何人都可以在第一步中帮助我。- 帮助进入赛道!?我期待收到您的来信

认为零

4

3 回答 3

1

我的两分钱是你必须根据你最了解的语言来选择。如果我是的话,我会使用 Python,它有很多库和工具,而且需要几个小时的工作。

但是,如果您擅长 Perl 或 PHP,则必须选择其中一种语言。大多数脚本语言都有可以完成任务的库。

于 2011-05-14T13:33:05.577 回答
1

你擅长哪个?PHP 还是 Python?当涉及到这种事情时,肯定会有更多的比较讨论,但我们不要这样做。去选择你更了解的那个。可以说 Perl 甚至 Python 或 PHP,但每种都有自己的优势。最后,您将成为编码它的人,因此请选择您更了解的人。

于 2011-05-14T13:38:56.823 回答
1

所有数据均可免费使用 - 不受版权限制。

我不会那么肯定。他们不遗余力地混淆联系人数据,以便“数据不能存储在表格中以生成邮件列表”。基础上的细节不是 HTML,而是图像。此外,它们将搜索结果限制为最多 100 个。如果您懂德语,则应阅读 Informationen 中的“Daten Schutz”(数据保护)部分。

如果您只想将基金会的名称链接到网站允许您使用的搜索条件,那么请查看其他人的答案。如果您确实想存储详细信息,那么您将违反网站的意图,并且需要咨询律师以了解他们的陈述是否具有法律价值。此外,您将需要OCR将图像恢复为可用数据。

于 2011-05-14T14:05:11.110 回答