Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
当我开始爬行时,我意识到它应该花费更多的时间但仍未完成
我试图检查进程 pid 以查看另一个终端发生了什么,但输出对我来说并不清楚,它们都是这种形式:
由 Not SEED、Prod 或 Cat 移除 **** https://(希望被抓取页面的 URL)
也许如果有人理解他们,让我知道会很酷!如果有人知道如何处理它,我高度怀疑这是爬行配置代码(crawl-beans.cxml)请告诉我
再深入一点,我认为我很愚蠢,这是一个 php 网站,所以我应该花点时间,所以事情根本没有问题所以如果