如何告訴搜索引擎該抓取什么內容?robots文件介紹
如何告訴搜索引擎該抓取什么內容?這一點(diǎn)對網(wǎng)站優(yōu)化很有影響,下面來(lái)介紹一下robots文件介紹。
首先要了解什么是robots文件,比如,在蕪湖優(yōu)斗士的首頁(yè)網(wǎng)址后面加入“/robots.txt”,即可打開(kāi)該網(wǎng)站的robots文件。
文件里顯示的內容是要告訴搜索引擎哪些網(wǎng)頁(yè)希望被抓取,哪些不希望被抓取。因為網(wǎng)站中有一些無(wú)關(guān)緊要的網(wǎng)頁(yè),如“給我留言”或“聯(lián)系方式”等網(wǎng)頁(yè),它們并不參與SEO排名,只是為了給用戶(hù)看,此時(shí)可以利用robots文件把它們屏蔽,即告訴搜索引擎不要抓取該頁(yè)面。
蜘蛛抓取網(wǎng)頁(yè)的精力是有限的,即它每次來(lái)抓取網(wǎng)站,不會(huì )把網(wǎng)站所有文章、所有頁(yè)面一次性全部抓取,尤其是當網(wǎng)站的內容越來(lái)越多時(shí),它每次只能抓取一部分。那么怎樣讓它在有限的時(shí)間和精力下每次抓取更多希望被抓取的內容,從而提高效率呢?
此時(shí)可以利用robots文件。小型網(wǎng)站沒(méi)有該文件無(wú)所謂,但對于中大型網(wǎng)站來(lái)說(shuō),robots文件尤為重要。因為這些網(wǎng)站數據庫非常龐大,蜘蛛來(lái)時(shí),要像對待好朋友一樣要給它看重要的東西,因為這個(gè)朋友時(shí)間精力有限,每次來(lái)都不能把所有的東西看一遍,所以就需要robots文件屏蔽一些無(wú)關(guān)些頁(yè)面。
結合蕪湖優(yōu)斗士whudows.com的文章來(lái)說(shuō),比如,我不想讓搜索引擎抓取文章,可以在圖6-35中接著(zhù)寫(xiě)“Disallow:/news/120.htm1”,表示禁止搜索引擎抓取該網(wǎng)頁(yè)。所以一定要對網(wǎng)站進(jìn)行robots設置哦。