13

我是 PHP 编码的新手,这里正在寻找对所有目录进行递归搜索以查找字符串数组的最快方法。

我正在这样做

$contents_list = array("xyz","abc","hello"); // this list can grow any size
$path = "/tmp/"; //user will give any path which can contain multi level sub directories

$dir = new RecursiveDirectoryIterator($path);

foreach(new RecursiveIteratorIterator($dir) as $filename => $file) {
    $fd = fopen($file,'r');
    if($fd) {
        while(!feof($fd)) {
            $line = fgets($fd);
            foreach($contents_list as $content) {
                if(strpos($line, $content) != false) {
                    echo $line."\n";
                }
            }         
        }
    }
    fclose($fd);
}

在这里,我递归地遍历所有目录,然后在每个文件上再次遍历内容数组以进行搜索。

有没有更好的方法来进行搜索?请建议更快的替代方案。

谢谢

4

2 回答 2

13

如果您被允许在您的环境中执行 shell 命令(并假设您在 *nix 上运行您的脚本),您可以递归地调用本机 grep 命令。这会给你最快的结果。

$contents_list = array("xyz","abc","hello");
$path = "/tmp/";
$pattern = implode('\|', $contents_list) ;
$command = "grep -r '$pattern' $path";
$output = array();
exec($command, $output);
foreach ($output as $match) {
    echo $match . '\n';
}

如果disable_functions指令生效并且您无法调用 grep,则可以使用您的方法RecursiveDirectoryIterator逐行读取文件,在每一行上使用 strpos。请注意,这strpos需要严格的相等检查(使用!== false代替!= false),否则您将在行首跳过匹配项。

一个稍微快一点的方法是使用 glob recusively 来获取文件列表,并一次读取这些文件,而不是逐行扫描它们。根据我的测试,这种方法将比您的方法提供大约 30-35% 的时间优势。

function recursiveDirList($dir, $prefix = '') {
    $dir = rtrim($dir, '/');
    $result = array();

    foreach (glob("$dir/*", GLOB_MARK) as &$f) {
        if (substr($f, -1) === '/') {
            $result = array_merge($result, recursiveDirList($f, $prefix . basename($f) . '/'));
        } else {
            $result[] = $prefix . basename($f);
        }
    }

    return $result;
}

$files = recursiveDirList($path);
foreach ($files as $filename) {

    $file_content = file($path . '/' . $filename);
    foreach ($file_content as $line) {
        foreach($contents_list as $content) {
            if(strpos($line, $content) !== false) {
                echo $line . '\n';
            }
        }
    }
}

递归 glob 函数的功劳归功于http://proger.i-forge.net/3_ways_to_recursively_list_all_files_in_a_directory/Opc

总而言之,在性能方面,您有以下排名(使用两种常见的文本模式,对于包含约 1200 个文件的非常大的目录在几秒钟内得到结果):

  1. 通过 exec() 调用 grep - 2.2015s
  2. 使用递归glob和读取文件file()- 9.4443s
  3. 使用RecursiveDirectoryIterator和读取文件readline()- 15.1183s
于 2013-11-14T09:17:59.357 回答
0

即使在 2013 年,也有一种 - 在我看来更具可读性 - PHP 原生方法可以递归地遍历目录树:RecursiveDirectoryIterator类。

看看这个样本:

<?php

  // Initialize Recursive Iterator

  $directory = new RecursiveDirectoryIterator( 'path/to/project/' );
  $iterator = new RecursiveIteratorIterator( $directory );
  $regex = new RegexIterator( $iterator, '/^.+\.php$/i', RecursiveRegexIterator::GET_MATCH );

  // Iterate over files

  $files = array();
  foreach ( $regex as $info ) {
    // Do something with file to be found at $info->getPathname()
  }

?>

来自萨尔茨堡的问候!

于 2020-12-03T10:54:57.600 回答