1

有没有人有使用 PHP 阅读 WebVTT (.vtt) 文件的经验?

我正在使用 CakePHP 开发一个应用程序,我需要阅读一堆 vtt 文件并获取开始时间和相关文本。

以文件为例:

00:00.999 --> 00:04.999
第一句

00:04.999 --> 00:07.999
第二句

00:07.999 --> 00:10.999
第三句
有换行符

00:10.999 --> 00:14.999
第四句
在三个
线条

我需要能够提取这样的东西:

00:00.999 第一句
00:04.999 第二句
00:07.999 第三句带换行符
00:10.999 三行第四句

请注意,可以有换行符,因此每个时间戳之间没有固定的行数。

我的计划是搜索“-->”,这是每个时间戳之间的公共字符串。有谁知道如何最好地实现这一目标?

4

3 回答 3

2

要解析文件,您可以使用如下库:

$subtitles = Subtitles::load('subtitles.vtt');
$blocks = $subtitles->getInternalFormat(); // array

foreach ($blocks as $block) {
    echo $block['start'];
    echo $block['end'];
    foreach ($block['lines'] as $line) {
        echo $line;
    }
} 

https://github.com/mantas-done/subtitles

于 2017-01-15T17:42:06.810 回答
1

这似乎达到了我所需要的,即输出开始时间和任何后续的文本行。我使用的文件非常小,因此使用 PHP 的 file() 函数将所有内容读入数组似乎没问题;不确定这是否适用于大文件。

    $file = 'test.vtt'; 
    $file_as_array = file($file, FILE_IGNORE_NEW_LINES | FILE_SKIP_EMPTY_LINES);

    foreach ($file_as_array as $f) {    

        // Find lines containing "-->"  
        $start_time = false;
        if (preg_match("/^(\d{2}:[\d\.]+) --> \d{2}:[\d\.]+$/", $f, $match)) {              
            $start_time = explode('-->', $f);
            $start_time = $start_time[0];
            echo '<br>';
            echo $start_time;
        }

        // It's a line of the file that doesn't include a timestamp, so it's caption text. Ignore header of file which includes the word 'WEBVTT'
        if (!$start_time && (!strpos($f, 'WEBVTT')) ) {             
            echo ' ' . $f . ' ';
        }   

    }       
}
于 2014-10-02T11:06:12.173 回答
0

你可以这样做:

<?PHP

function send_reformatted($vtt_file){
 // Add these headers to ease saving the output as text file
    header("Content-type: text/plain");
    header('Content-Disposition: inline; filename="'.$vtt_file.'.txt"');

    $f = fopen($vtt_file, "r");
    $line_new = "";

    while($line = fgets($f)){
        if (preg_match("/^(\d{2}:[\d\.]+) --> \d{2}:[\d\.]+$/", $line, $match)) {
            if($line_new) echo $line_new."\n";
            $line_new = $match[1];
        } else{
            $line = trim($line);
            if($line) $line_new .= " $line";
        }
    }

    echo $line_new."\n";
    fclose($f);
}


send_reformatted("test.vtt");

?>
于 2014-10-01T19:17:37.313 回答