我有一个脚本:
cd ../data;
dossier=$(ls crawl);
let "compte = 1";
for file in $dossier
do
lynx --dump --nolist $file >> ../data/txt/$compte'.txt';
let "compte = compte + 1";
done
我正在使用lynx
从我的所有 HTML 文件中检索文本,但问题是当我打开我的文本文件时,它是这样写的:
410 GONE
This doesn't exist any more. Try html.com.
我不知道为什么,因为当我在终端和爬虫文件夹中时,我对每个 HTML 文件执行 lynx 转储,它正在生成文本文件,但是当我想将它与脚本一起使用来读取我的所有 HTML 时文件并lynx
在它们上使用结果并不好。