那里有大量的音乐歌词网站。不久前,我正在为我所在的乐队看一些歌词。这让我想,“这个网站是如何获得所有这些歌词的,我怎样才能得到这样的东西?” 当时找不到太多东西,所以我决定编写一个程序,它基本上可以解析一个站点以获取乐队信息和歌词,并将数据放入我创建的数据库中。
但我仍然想知道这些网站是如何获取数据的?我的方法效率不高,非常特定于站点,如果站点改变了它的脚本结构,我必须改变我的解析程序。必须有更简单的方法。
任何人的想法都非常感谢!
那里有大量的音乐歌词网站。不久前,我正在为我所在的乐队看一些歌词。这让我想,“这个网站是如何获得所有这些歌词的,我怎样才能得到这样的东西?” 当时找不到太多东西,所以我决定编写一个程序,它基本上可以解析一个站点以获取乐队信息和歌词,并将数据放入我创建的数据库中。
但我仍然想知道这些网站是如何获取数据的?我的方法效率不高,非常特定于站点,如果站点改变了它的脚本结构,我必须改变我的解析程序。必须有更简单的方法。
任何人的想法都非常感谢!
I'd guess at either JSON or XML files. To 'get your hands on it' - there are various ways and means of downloading data from a web site. wget is one means, not that I condone it but it's hardly a secret
大多数网站都从用户那里获取歌词。例如 Musixmatch,如果歌词不存在于他们的数据库中,它们允许用户创建他们的歌词。当用户创建歌词时,它可能会自动保存到 musixmatch 的数据库中。有大量的歌词网站允许用户上传歌词。
网站获取数据的另一种方式是通过数据挖掘,就像你说的那样,编写一个解析器/爬虫来浏览别人的网站。