我有一个像这个例子一样的文件夹结构
Groups
- apple
-- ahen45.html
-- rev34.html
-- ......
- bat
-- fsf.html
-- ere.html
--....
...
组是父级折叠的。苹果,蝙蝠等子文件夹
像这样有超过 50000 个子文件夹和超过 20000 个 html 文件。现在我试图通过 php 读取这些 html 文件并将标题、元关键字、正文和子文件夹作为类别。
<?php
$file =$_SERVER["DOCUMENT_ROOT"];
$dir = new RecursiveDirectoryIterator('groups/',
FilesystemIterator::SKIP_DOTS);
$it = new RecursiveIteratorIterator($dir,
RecursiveIteratorIterator::SELF_FIRST);
$it->setMaxDepth(1);
foreach ($it as $fileinfo) {
if ($fileinfo->isDir()) {
echo $category = $fileinfo->getFilename();
}
else if ($fileinfo->isFile()) {
$fileinfo->getFilename();
$myURL = $file.'/group/groups/'.$category.'/'.$fileinfo->getFilename();
$doc = new DOMDocument();
$doc->loadHTMLFile($myURL);
$elements = $doc->getElementsByTagName('meta');
$elements = $doc->getElementsByTagName('title');
$elements = $doc->getElementsByTagName('body');
foreach ($elements as $el) {
echo $el->nodeValue, PHP_EOL;
}
}
}
?>
当我这样尝试时,它正在检查整个页面并发出警告,如标签(其他标签如 or )未关闭。我该怎么做才能完美工作?