-1

我有一个脚本:

cd ../data;
dossier=$(ls crawl);

let "compte = 1";

for file in $dossier
do

lynx --dump --nolist $file >> ../data/txt/$compte'.txt';

let "compte = compte + 1"; 
done 

我正在使用lynx从我的所有 HTML 文件中检索文本,但问题是当我打开我的文本文件时,它是这样写的:

410 GONE

This doesn't exist any more. Try html.com.

我不知道为什么,因为当我在终端和爬虫文件夹中时,我对每个 HTML 文件执行 lynx 转储,它正在生成文本文件,但是当我想将它与脚本一起使用来读取我的所有 HTML 时文件并lynx在它们上使用结果并不好。

4

1 回答 1

0

您需要协议和(不确定)路径。例如:

lynx -dump file:///where/my/file/is/file.html
于 2017-01-01T12:57:01.370 回答