我正在使用 html2text 将一些 html 文件转换为文本,并希望将文件名 charliesheenwinning.html 的名称保留为charliesheenwinning.txt甚至charliesheenwinning.html.txt。
find ./ -not -regex ".*\(png\|jpg\|gif\)$" -print0 | xargs -0 -L10 {} max-process=0 html2text {} -o ../potistotallywinning/{}.txt
当然最后一部分 -o 是错误的。除了 html2text 的第一个参数之外,我如何保留重用文件名?可以在 -exec 中使用 for,但是如何使用 xargs 呢?
更新
做完了
find path/to/dir -type f -not -regex ".*\(gif\|png\|jpg\|jpeg\|mov\|pdf\|txt\)$" -print0 | xargs -0 -L10 --max-procs=0 -I {} html2text -o {}.txt {}
mkdir dir/w/textfiles
cp -r path/to/dir dir/w/textfiles
find dir/w/textfiles -type f -not -regex ".*txt$" -print0 | xargs -0 -L10 --max-procs=0 -I {} rm {}
不是最好的.. 但无论如何.. [以防你想知道为什么它不仅仅是 find 参数中的一个简单的 -name '*html' ,这是一个 mediawiki 的 wget .. ]