如今,許多搜索引擎仍然推薦實現某一級別爬行效率的方法,那就是使爬蟲程序可以爬行基於HTML的站點地圖頁面。
如果這種模式繼續下去的話,爬蟲程序會受到雙重的壓力,在維持可接受的爬行*能的同時又要聚集不斷增加的信息量。
簡而言之,我們需要做的就是生成一個頁面引用列表(URL),爬蟲程序通過這個列表獲取信息。
使用dotnet+多線成的爬蟲程序。