0

我目前正在构建一个文档共享平台,为了吸引尽可能多的用户,我想已经将 10 000 个文档添加到我的平台中。这些文件只是 PDF 文件。我正在使用 Symfony2,但我想这对问题没有太大影响:如何自动从这些文档中提取我需要的元数据(例如,标题,描述的前 100 个单词)并将其插入我的数据库(在我的情况下,将其水合到我的实体中,但我知道那部分)。

我想爬虫是我正在寻找的东西,但我不知道在哪里可以找到这样的东西,也不知道如何让它工作。

提前致谢!

4

1 回答 1

1

以及您没有真正的问题:

  • 定义您允许的文档类型/格式
  • google 了解如何使用 php 读取每种文档类型(php-functions、libraries、code-snippets)
  • 确定上传文件的文件类型
  • 使用谷歌搜索的函数、库等读取 php 中的文件。

当您完成所有这些然后遇到特定问题时:提出一个真正的问题;)

于 2013-07-19T09:29:17.567 回答