蜘蛛抓取頁面,卻遲遲不見收錄,這背后隱藏著怎樣的搜索引擎邏輯呢?讓我們一起揭開這層神秘的面紗。
. 爬取與收錄的微妙關(guān)系
爬取和收錄,聽起來像是一對(duì)密不可分的伙伴,實(shí)則不然。它們是搜索引擎工作的兩個(gè)獨(dú)立環(huán)節(jié)。蜘蛛辛勤地爬取頁面后,會(huì)將它們暫時(shí)存放在數(shù)據(jù)庫中。只有當(dāng)頁面通過搜索引擎的審查,才會(huì)被正式收錄并展示給用戶。
. 蜘蛛抓取的兩個(gè)階段
第一階段:全面抓取
蜘蛛對(duì)網(wǎng)站的URL進(jìn)行“大小通吃”,無論是大站還是小站,它都會(huì)一一抓取。站長(zhǎng)可以通過網(wǎng)站日志記錄這一過程,從而分析網(wǎng)站的優(yōu)化情況。
第二階段:網(wǎng)頁評(píng)級(jí)
抓取后,蜘蛛會(huì)對(duì)頁面進(jìn)行評(píng)級(jí)。PageRank算法是衡量網(wǎng)頁重要性的一個(gè)著名方法。站長(zhǎng)可以借鑒這一思路,對(duì)URL進(jìn)行排序。但值得注意的是,PageRank是一個(gè)全局性算法,需要所有網(wǎng)頁下載完成后,其計(jì)算結(jié)果才可靠。
. 爬取成功卻不見收錄的原因
蜘蛛將頁面放入臨時(shí)數(shù)據(jù)庫后,搜索引擎會(huì)對(duì)內(nèi)容進(jìn)行審查。只有優(yōu)質(zhì)內(nèi)容才能被放出并建立索引。不同蜘蛛的抓取頁面評(píng)級(jí)也不盡相同,有的權(quán)重高,有的權(quán)重低。
如果網(wǎng)站提交后,首頁快照已經(jīng)放出,但內(nèi)容仍未見收錄,站長(zhǎng)只需耐心等待。在此期間,避免進(jìn)行大的改動(dòng),如修改title標(biāo)題或URL,以免延長(zhǎng)收錄時(shí)間。
如果內(nèi)容和首頁都未放出,建議重新向百度提交,并提交sitemap地圖,以通知蜘蛛抓取網(wǎng)站內(nèi)容。