技術(shù)資訊
如何使蜘蛛逆向爬行索引
2011-11-15 00:12:46
首先,我們要來個(gè)免責(zé)聲明-他們?cè)?a href="http://www.ihaomai.cn" target="_blank">青島網(wǎng)站設(shè)計(jì)中并不一定是必要的-但以防萬一…但你必須注意的是,這些是一個(gè)概念化的東西,至少我是這樣認(rèn)為的,還沒有進(jìn)行實(shí)際的測(cè)試和實(shí)踐證明。
蜘蛛的逆向爬行…至少我第一次起這個(gè)名字的時(shí)候我是這樣想的。這種想法來源于很多的地方:
網(wǎng)站的頁面的深度如果很高的話那對(duì)爬行和索引來說都是一個(gè)挑戰(zhàn),因?yàn)樗麄兊慕Y(jié)構(gòu)很深,擁有大量的頁面,會(huì)有爬行的障礙(例如那些大量基于參數(shù)的URL或者那些被認(rèn)為沒有什么價(jià)值的頁面,這種情況會(huì)經(jīng)常出現(xiàn)在一些電子商務(wù)的網(wǎng)站。)
或者一個(gè)網(wǎng)站希望能夠盡可能的充分并迅速的被索引(也許一個(gè)網(wǎng)站添加了新的內(nèi)容,它的URL就會(huì)發(fā)生戲劇化的改變,盡管301已經(jīng)被定位了,或者這是一個(gè)新的站點(diǎn))。
因此,怎樣才能使網(wǎng)站能夠被正常的爬行和索引?通常是通過以下的幾種方式:
發(fā)現(xiàn):搜索引擎蜘蛛會(huì)根據(jù)鏈接進(jìn)入到你的網(wǎng)站
提交:一個(gè)站長會(huì)把站點(diǎn)和頁面提交給搜索引擎
XML網(wǎng)站地圖:一個(gè)站長給他們的網(wǎng)站創(chuàng)建一個(gè)XML網(wǎng)站地圖,并通過搜索引擎使他們變得有效,或者就把它放在網(wǎng)站的根目錄作為一個(gè)網(wǎng)站地圖或者利用ROBOTS文件來進(jìn)行自動(dòng)搜索。
這些方法都是優(yōu)點(diǎn)和缺點(diǎn)的,但是他們至少解決了如何讓蜘蛛進(jìn)入他們的站點(diǎn),通過使用XML網(wǎng)站地圖,可以幫助蜘蛛越過一些爬行的障礙。但是它也不是完全準(zhǔn)確的,但是我認(rèn)為這是一個(gè)自上而下的路線,像是這樣的…
無論是直接還是間接,主頁被發(fā)現(xiàn)了。那么蜘蛛就會(huì)按照他們自己的路線進(jìn)行爬行。從頂級(jí)的導(dǎo)航到第二層讓后到子導(dǎo)航,爬行到頂級(jí)的分類頁面,通過子分類的界面,然后到更深的產(chǎn)品和信息頁面。反過來說,你想進(jìn)行索引的這些頁面同時(shí)占領(lǐng)了頭部和長尾的搜索。這些也很有可能是產(chǎn)生交易或者是轉(zhuǎn)化的頁面。
蜘蛛來到你頁面的頻率是多少?它們一次性通常會(huì)爬多少頁面?新的頁面會(huì)多久才會(huì)被發(fā)現(xiàn)和抓取?相對(duì)而言舊的頁面會(huì)多久被發(fā)現(xiàn)和抓取?本質(zhì)上來說,應(yīng)該平衡抓取,這就解釋了為什么排除重復(fù)性內(nèi)容的重要性。你不想心愛的蜘蛛把時(shí)間浪費(fèi)在爬過和收錄過的內(nèi)容。
當(dāng)你為一些大型的網(wǎng)站指出這些問題的話,你發(fā)現(xiàn)想讓蜘蛛去爬行和喜歡的URL實(shí)在是多的讓人覺得可怕,即使沒有那些隱藏著的爬行障礙。請(qǐng)記住,甚至是XML網(wǎng)站地圖,每個(gè)網(wǎng)站地圖最多只能包括50000個(gè)URL,最少20個(gè)單獨(dú)的網(wǎng)站地圖的話加起來就會(huì)有1000000個(gè)頁面。
要說的是,我要提醒大家這種情況并不適用于所有的網(wǎng)站和情況。這種“蜘蛛逆向爬行”的基礎(chǔ)和使用XML網(wǎng)站地圖是有些不同的。典型的XML網(wǎng)站地圖策略是要提交每一個(gè)URL,就是希望每個(gè)頁面都能被索引。這也許不是最好的策略,但是這是另外一個(gè)問題了。即使那樣,這些策略往往會(huì)給首頁過多的權(quán)重和優(yōu)先權(quán)。
恰恰相反,我們應(yīng)該把網(wǎng)站地圖的重點(diǎn)放在一些低等級(jí)的頁面上。通常都是單個(gè)的產(chǎn)品和信息頁面。這種思想就是讓蜘蛛去那些最深層最難爬的頁面。
它們之后還會(huì)去哪兒呢?他們會(huì)按照蜘蛛做的那樣做,開始爬行。想想這些深層次的頁面。但愿他們內(nèi)容豐富并且富有關(guān)鍵詞。他們也許包括一些可以導(dǎo)航的元素,即使不是完全的高等級(jí)的導(dǎo)航,至少是一些分類導(dǎo)航。如果網(wǎng)站有類似的面包屑導(dǎo)航的話,我們可以直接喂給蜘蛛這些面包屑。
在這點(diǎn)上,我們應(yīng)該更好的以更多的方式給蜘蛛展現(xiàn)我們的網(wǎng)站。這個(gè)觀念也許并不是關(guān)于逆向爬行的,反而是關(guān)于讓蜘蛛從兩個(gè)底端開始爬行,這樣的爬行最終也能到頂部的導(dǎo)航。
我們通常會(huì)假設(shè)蜘蛛會(huì)很自然的首先去找首頁然后順勢(shì)往下爬遍整個(gè)網(wǎng)站。和那些多樣化的產(chǎn)品等級(jí)的頁面相比從主頁到頂層頁面有多少個(gè)唯一的URL?我的猜想是因?yàn)轫撁嫔疃鹊牟煌?,兩個(gè)等級(jí)的頁面的抓取數(shù)量是有很大的不同的。
正如我提到的,我認(rèn)為這是一個(gè)低風(fēng)險(xiǎn)的路線。無論有沒有xml網(wǎng)站地圖,蜘蛛們都能找到頁面的。他們會(huì)找到不在網(wǎng)站地圖中的頁面,因此即使是一個(gè)沒有首頁和頂級(jí)頁面的網(wǎng)站地圖,也不會(huì)遺漏掉這些頁面。
在自然環(huán)境下,也許不會(huì)出現(xiàn)這些問題。蜘蛛會(huì)迅速爬過整個(gè)網(wǎng)站。一旦他們發(fā)現(xiàn)了鏈接他們就會(huì)追根究底。也許這些頁面埋得太深了,他們有點(diǎn)兒不太喜歡。
無論如何,讓這些網(wǎng)頁被爬到和索引是很重要的,對(duì)于我的站來說這的確是一個(gè)艱難的過程?;蛟S這只是一個(gè)時(shí)間問題。至少我要去嘗試。一旦像我想象的那樣整個(gè)網(wǎng)站的那個(gè)等級(jí)的頁面都被建立了索引,我就可以繼續(xù)并在XML網(wǎng)站地圖中添加其他的URL,或者我可以做個(gè)實(shí)驗(yàn),不把網(wǎng)站地圖放在網(wǎng)站里。
近期更新
- [2023-07-26 14:17:28] 為品牌賦能,海外官網(wǎng)品牌數(shù)字化
- [2023-05-06 10:32:26] 青島網(wǎng)站建設(shè)公司,高端網(wǎng)站定制,一站式網(wǎng)站服務(wù)——力圖數(shù)字科技
- [2023-04-27 13:47:54] 高端定制網(wǎng)站建設(shè)——從滿足預(yù)期到走向卓越
- [2023-04-11 09:17:49] H5頁面設(shè)計(jì)開發(fā)——移動(dòng)端傳播利器
- [2022-11-16 10:11:43] windows2012程序在哪
- [2022-04-14 11:01:47] 力圖數(shù)字科技配套網(wǎng)站服務(wù)支持
- [2021-05-18 10:14:11] 青島網(wǎng)站建設(shè)的流程
- [2021-04-29 10:14:38] 企業(yè)定制化官網(wǎng)建設(shè)項(xiàng)目
- [2021-03-05 10:34:45] 移動(dòng)互聯(lián)時(shí)代房地產(chǎn)行業(yè)的微信小程序解決方案
- [2021-01-22 17:29:38] 微信小程序有哪些優(yōu)勢(shì)?為什么要開發(fā)微信小程序?
- [2021-01-08 17:28:04] 網(wǎng)站建設(shè)最容易忽略的人性化設(shè)計(jì)
- [2020-12-16 16:55:32] 建設(shè)一個(gè)常規(guī)的公司網(wǎng)站建設(shè)成本大概是多少?
延伸閱讀
- [2015-03-20 09:07:39] 網(wǎng)站被降權(quán)后的表現(xiàn)及處理方案?
- [2014-01-27 11:33:01] 網(wǎng)站反饋表單的設(shè)計(jì)與欣賞
- [2016-09-06 15:15:00] 設(shè)計(jì)精心的優(yōu)秀網(wǎng)站
- [2012-01-26 21:46:03] 如何添加nofollow
- [2015-02-07 16:39:56] 如何提高網(wǎng)頁關(guān)鍵詞也是優(yōu)化網(wǎng)頁細(xì)節(jié)?
- [2012-02-10 15:15:01] 不被處罰的DIV隱藏連接方法
- [2014-11-22 19:27:59] 客戶虐我千萬遍 我待客戶如初戀
- [2015-03-11 09:22:14] 新建站優(yōu)化,加快百度收錄。
- [2011-10-22 22:45:03] 自己網(wǎng)站的排名掉下來了 我們應(yīng)該怎么解決呢
- [2011-10-17 10:43:56] 青島網(wǎng)頁設(shè)計(jì)的未來在何處
- [2011-10-10 12:01:25] 青島網(wǎng)站設(shè)計(jì)如何做到文章偽原創(chuàng)
- [2011-10-27 22:12:15] 網(wǎng)站關(guān)鍵詞間隔符號(hào)用什么好?
解決方案
輪胎行業(yè)網(wǎng)站設(shè)計(jì)解決方案 機(jī)械行業(yè)網(wǎng)站設(shè)計(jì)解決方案 房地產(chǎn)行業(yè)網(wǎng)站設(shè)計(jì)解決方案 科技企業(yè)網(wǎng)站設(shè)計(jì)解決方案 電子家電網(wǎng)站設(shè)計(jì)解決方案 食品行業(yè)網(wǎng)站設(shè)計(jì)解決方案 集團(tuán)公司網(wǎng)站設(shè)計(jì)解決方案 企事業(yè)單位網(wǎng)站設(shè)計(jì)解決方案 外貿(mào)行業(yè)網(wǎng)站設(shè)計(jì)解決方案 健身運(yùn)動(dòng)網(wǎng)站設(shè)計(jì)解決方案 美容與化妝品網(wǎng)站設(shè)計(jì)解決方案 建筑設(shè)計(jì)行業(yè)網(wǎng)站設(shè)計(jì)解決方案 物流行業(yè)網(wǎng)站設(shè)計(jì)解決方案
TAGS關(guān)鍵字
企業(yè)網(wǎng)站設(shè)計(jì) 青島不錯(cuò)的英文網(wǎng)站建設(shè)公司 輪胎網(wǎng)站設(shè)計(jì) 企業(yè)網(wǎng)站建設(shè) 搜索引擎 微信開發(fā) 視覺靈感 插畫 網(wǎng)站建設(shè),手機(jī)網(wǎng)站 如何做網(wǎng)站優(yōu)化 版面布局 網(wǎng)站優(yōu)化 青島網(wǎng)站案例 網(wǎng)站推廣 微網(wǎng)站 青島網(wǎng)站SEO 集團(tuán)官網(wǎng) 網(wǎng)站策劃 青島好的網(wǎng)站優(yōu)化公司 青島做網(wǎng)站多少錢 微信小程序 新的元素 色彩心理學(xué) 頁面設(shè)計(jì) 膠南網(wǎng)站建設(shè)公司 GOOGLE H5專題頁面 良好的導(dǎo)航 微信營銷的優(yōu)勢(shì) 蘋果系統(tǒng)