0

那里有大量的音乐歌词网站。不久前,我正在为我所在的乐队看一些歌词。这让我想,“这个网站是如何获得所有这些歌词的,我怎样才能得到这样的东西?” 当时找不到太多东西,所以我决定编写一个程序,它基本上可以解析一个站点以获取乐队信息和歌词,并将数据放入我创建的数据库中。

但我仍然想知道这些网站是如何获取数据的?我的方法效率不高,非常特定于站点,如果站点改变了它的脚本结构,我必须改变我的解析程序。必须有更简单的方法。

任何人的想法都非常感谢!

4

2 回答 2

1

I'd guess at either JSON or XML files. To 'get your hands on it' - there are various ways and means of downloading data from a web site. wget is one means, not that I condone it but it's hardly a secret

于 2013-09-05T20:48:25.550 回答
0

大多数网站都从用户那里获取歌词。例如 Musixmatch,如果歌词不存在于他们的数据库中,它们允许用户创建他们的歌词。当用户创建歌词时,它可能会自动保存到 musixmatch 的数据库中。有大量的歌词网站允许用户上传歌词。

网站获取数据的另一种方式是通过数据挖掘,就像你说的那样,编写一个解析器/爬虫来浏览别人的网站。

于 2015-01-16T23:41:02.597 回答