我目前正在构建一个文档共享平台,为了吸引尽可能多的用户,我想已经将 10 000 个文档添加到我的平台中。这些文件只是 PDF 文件。我正在使用 Symfony2,但我想这对问题没有太大影响:如何自动从这些文档中提取我需要的元数据(例如,标题,描述的前 100 个单词)并将其插入我的数据库(在我的情况下,将其水合到我的实体中,但我知道那部分)。
我想爬虫是我正在寻找的东西,但我不知道在哪里可以找到这样的东西,也不知道如何让它工作。
提前致谢!
我目前正在构建一个文档共享平台,为了吸引尽可能多的用户,我想已经将 10 000 个文档添加到我的平台中。这些文件只是 PDF 文件。我正在使用 Symfony2,但我想这对问题没有太大影响:如何自动从这些文档中提取我需要的元数据(例如,标题,描述的前 100 个单词)并将其插入我的数据库(在我的情况下,将其水合到我的实体中,但我知道那部分)。
我想爬虫是我正在寻找的东西,但我不知道在哪里可以找到这样的东西,也不知道如何让它工作。
提前致谢!