Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试下载波兰语词典。不幸的是,现有文件包含所有变形(不确定正确的英文单词是什么)。我发现命令
lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page=1 > file.txt
可以下载单个字典网页。然后,我将不得不以某种方式仅从文本块中提取字典条目,但至少这是一个开始。
不幸的是,我是一个 linux 菜鸟,不知道如何遍历所有 3067 页。
未经测试,但您应该能够使用GNU Parallel快速轻松地完成它
parallel -qk 'lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page={}' ::: {1..3067} > file.txt
如果它不起作用,请尝试删除单引号。如果这不起作用,请尝试在&. 抱歉,我目前没有任何测试方法。
&
缓慢的方法是:
for ((i=1;i<3068;i++)) ; do lynx --dump ...page=$i done > file.txt