技術(shù)資訊
科普知識之搜索引擎的工作原理
2016-12-21 11:45:00
搜索引擎的核心技術(shù)架構(gòu),大體包括以下三塊:第一,是蜘蛛/爬蟲技術(shù);第二,是索引技術(shù);第三是查詢展現(xiàn)的技術(shù); 青島網(wǎng)站制作公司來講講搜索引擎的技術(shù)機理和市場競爭的一些特點。當然,青島網(wǎng)站制作公司不是搜索引擎的架構(gòu)師,只能用比較粗淺的方式來做一個結(jié)構(gòu)的切分。
1、 蜘蛛,也叫爬蟲,是將互聯(lián)網(wǎng)的信息,抓取并存儲的一種技術(shù)實現(xiàn)。
搜索引擎的信息收錄,很多不明所以的人會有很多誤解,以為是付費收錄,或者有什么其他特殊的提交技巧,其實并不是,搜索引擎通過互聯(lián)網(wǎng)一些公開知名的網(wǎng)站,抓取內(nèi)容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內(nèi)容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強大的信息抓取能力。
有些搜索引擎本身也有鏈接提交入口,但基本上,不是主要的收錄入口,不過作為創(chuàng)業(yè)者,建議了解一下相關(guān)信息,百度,google都有站長平臺和管理后臺,這里很多內(nèi)容是需要非常非常認真的對待的。
反過來說,在這樣的原理下,一個網(wǎng)站,只有被其他網(wǎng)站所鏈接,才有機會被搜索引擎抓取。如果這個網(wǎng)站沒有外部鏈接,或者外部鏈接在搜索引擎中被認為是垃圾或無效鏈接,那么搜索引擎可能就不抓取他的頁面。
分析和判斷搜索引擎是否抓取了你的頁面,或者什么時候抓取你的頁面,只能通過服務(wù)器上的訪問日志來查詢,如果是cdn就比較麻煩。 而基于網(wǎng)站嵌入代碼的方式,不論是cnzz,百度統(tǒng)計,還是google analytics,都無法獲得蜘蛛抓取的信息,因為這些信息不會觸發(fā)這些代碼的執(zhí)行。
一個比較推薦的日志分析軟件是awstats。
在十多年前,分析百度蜘蛛抓取軌跡和更新策略,是很多草根站長每日必做的功課,比如現(xiàn)在身價幾十億的知名80后上市公司董事長,當年在某站長論壇就是以此準確的分析判斷而封神,很年輕的時候就已經(jīng)是站長圈的一代偶像。
但關(guān)于蜘蛛的話題,并不只基于鏈接抓取這么簡單,延伸來說
第一,網(wǎng)站擁有者可以選擇是否允許蜘蛛抓取,有一個robots.txt的文件是來控制這個的。
一個經(jīng)典案例是 https://www.taobao.com/robots.txt
你會看到,淘寶至今仍有關(guān)鍵目錄不對百度蜘蛛開放,但對google開放。
另一個經(jīng)典案例是 http://www.baidu.com/robots.txt
你看出什么了?你可能什么都沒看出來,我提醒一句,百度實質(zhì)上全面禁止了360的蜘蛛抓取。
但這個協(xié)議只是約定俗成,實際上并沒有強制約束力,所以,你們猜猜,360遵守了百度的蜘蛛抓取禁止么?
第二,最早抓取是基于網(wǎng)站彼此的鏈接為入口,但實際上,并不能肯定的說,有可能存在其他抓取入口,比如說,
客戶端插件或瀏覽器, 免費網(wǎng)站統(tǒng)計系統(tǒng)的嵌入式代碼。
會不會成為蜘蛛抓取的入口,我只能說,有這個可能。
所以我跟很多創(chuàng)業(yè)者說,中國做網(wǎng)站,放百度統(tǒng)計,海外做網(wǎng)站,放google analytics,是否會增加搜索引擎對你網(wǎng)站的收錄?我只能說猜測,有這個可能。
第三,無法被抓取的信息
有些網(wǎng)站的內(nèi)容鏈接,用一些javascript特殊效果完成,比如浮動的菜單等等,這種連接,有可能搜索引擎的蜘蛛程序不識別,當然,我只是說有可能,現(xiàn)在搜索引擎比以前聰明,十多年前很多特效鏈接是不識別的,現(xiàn)在會好一些。
需要登錄,需要注冊才能訪問的頁面,蜘蛛是無法進入的,也就是無法收錄。
有些網(wǎng)站會給搜索特殊頁面,就是蜘蛛來能看到內(nèi)容(蜘蛛訪問會有特殊的客戶端標記,服務(wù)端識別和處理并不復(fù)雜),人來了要登錄才能看,但這樣做其實是違反了收錄協(xié)議(需要人和蜘蛛看到的同樣的內(nèi)容,這是絕大部分搜索引擎的收錄協(xié)議),有可能遭到搜索引擎處罰。
所以一個社區(qū)要想通過搜索引擎帶來免費用戶,必須讓訪客能看到內(nèi)容,哪怕是部分內(nèi)容。
帶很多復(fù)雜參數(shù)的內(nèi)容鏈接url,有可能被蜘蛛當作重復(fù)頁面,拒絕收錄。
很多動態(tài)頁面是一個腳本程序帶參數(shù)體現(xiàn)的,但蜘蛛發(fā)現(xiàn)同一個腳本有大量參數(shù)的網(wǎng)頁,有時候會給該網(wǎng)頁的價值評估帶來困擾,蜘蛛可能會認為這個網(wǎng)頁是重復(fù)頁面,而拒絕收錄。還是那句話,隨著技術(shù)的發(fā)展,蜘蛛對動態(tài)腳本的參數(shù)識別度有了很大進步,現(xiàn)在基本上可以不用考慮這個問題。
但這個催生了一個技術(shù),叫做偽靜態(tài)化,通過對web服務(wù)端做配置,讓用戶訪問的頁面,url格式看上去是一個靜態(tài)頁,其實后面是一個正則匹配,實際執(zhí)行的是一個動態(tài)腳本。
很多社區(qū)論壇為了追求免費搜索來路,做了偽靜態(tài)化處理,在十多年前,幾乎是草根站長必備技能之一。
爬蟲技術(shù)暫時說到這里,但是這里強調(diào)一下,有外鏈,不代表搜索蜘蛛會來爬取,搜索蜘蛛爬取了,不代表搜索引擎會收錄;搜索引擎收錄了,不代表用戶可以搜索的到;
site語法是檢查一個網(wǎng)站收錄數(shù)的最基本搜索語法,一個范例,百度搜索一下 site:leadto.com.cn
2、索引系統(tǒng)
蜘蛛抓取的是網(wǎng)頁的內(nèi)容,那么要想讓用戶快速的通過關(guān)鍵詞搜索到這個網(wǎng)頁,就必須對網(wǎng)頁做關(guān)鍵詞的索引,從而提升查詢效率,簡單說就是,把網(wǎng)頁的每個關(guān)鍵詞提取出來,并針對這些關(guān)鍵詞在網(wǎng)頁中的出現(xiàn)頻率,位置,特殊標記等諸多因素,給予不同的權(quán)值標定,然后,存儲到索引庫中。
那么問題來了,什么是關(guān)鍵詞。
英文來說,比如 this is a book,中文,這是一本書。
英文很自然是四個單詞,空格是天然的分詞符,中文呢?你不能把一句話當作關(guān)鍵詞吧(如果把一句話當作關(guān)鍵詞,那么你搜索其中部分信息的時候,是無法索引命中的,比如搜索一本書,就搜索不出來了,而這顯然是不符合搜索引擎訴求的)。所以要分詞。
最開始,最簡單的思路是,每個字都切開,這個以前叫字索引,每個字建立索引,并標注位置,如果用戶搜索一個關(guān)鍵詞,也是把關(guān)鍵詞拆成字來搜索再組合結(jié)果,但這樣問題就來了。
比如搜索關(guān)鍵詞 “海鮮”的時候,會出現(xiàn)結(jié)果,上海鮮花,這顯然不是應(yīng)該的搜索結(jié)果。
比如搜索關(guān)鍵詞 “和服”的時候,會出現(xiàn)結(jié)果,交換機和服務(wù)器。
這些都是蠻荒期的google也不能幸免的問題。
到后來有個梗,別笑,這些都是血淚梗,半夜電話過來,說網(wǎng)監(jiān)通過搜索發(fā)現(xiàn)你社區(qū)有淫穢內(nèi)容要求必須刪除,否則就關(guān)閉你的網(wǎng)站,夜半驚醒認真排查,百思不得其解,苦苦哀求提供信息線索,最后發(fā)現(xiàn),有人發(fā)了一條小廣告,“求購二十四口交換機” 。 還有,涉嫌政治敏感,查到最后 “提供三臺獨立服務(wù)器”, 看出其中敏感詞了沒?你說冤不冤。 這兩個故事可能并不是真的,因為都是網(wǎng)上看到的,但是我想說,類似這樣的事情真的有,并非都是空穴來風。
所以,分詞,是亞洲很多語言需要額外處理的事情,而西方語言不存在的問題。
但分詞不是說說那么簡單,比如幾點,1:如何識別人名?2、互聯(lián)網(wǎng)新詞如何識別?比如 “不明覺厲”。3、中英混排的坑,比如QQ表情。
做一個分詞系統(tǒng),說到底也不難,但是要做一個自動學(xué)習(xí),與時俱進,又能高效率靈活的分詞引擎,還是很有技術(shù)難度的。 當然,這方面我不是專家,不敢妄言了。
現(xiàn)在機器學(xué)習(xí)技術(shù)發(fā)達了,特別是google在深度學(xué)習(xí)領(lǐng)域擁有領(lǐng)先優(yōu)勢,以前很多通過人工做標定,做分類的工作可以交給算法完成,從某種意義來說,本地化的工作可以讓機器學(xué)習(xí)去完成;未來,也許深度學(xué)習(xí)技術(shù)可以自己學(xué)習(xí)掌握本地化的技巧。 但我想說兩點,第一,從搜索引擎發(fā)展歷史看,在深度學(xué)習(xí)技術(shù)還沒成熟的情況下,本地化的工作是非常重要的,也是很重要的決定競爭成敗的要素;第二,即便現(xiàn)在深度學(xué)習(xí)已經(jīng)很強大,基于當?shù)卣Z言的人工參與,標定,測試,反饋,一些本地化的工作依然對深度學(xué)習(xí)的效率和效果擁有不可替代的作用。
索引系統(tǒng)除了分詞之外,還有一些要點,比如實時索引,因為一次索引庫的更新是個大動靜,一般網(wǎng)站運營者知道,自己網(wǎng)站內(nèi)容更新后,需要等索引庫下一次更新才能看到效果,而且索引庫針對不同權(quán)重的網(wǎng)站內(nèi)容,更新的頻次也不太一樣。 但諸如一些高優(yōu)先的資訊網(wǎng)站,以及新聞搜索,索引庫是可以做到近似實時索引的,所以我們在新聞搜索里,幾分鐘前的信息就已經(jīng)可以搜索到了。
我以前經(jīng)常吐槽一個事情,我在百度空間發(fā)表的文章,每次都是google率先索引收錄,當時他們的解釋是,猜測是因為很多人通過google閱讀器訂閱我的博客,而google閱讀器很可能是google快速索引的入口。(然并卵,百度空間已經(jīng)沒有了,google閱讀器也沒有了。)
索引系統(tǒng)的權(quán)值體系,是所有SEOER們最關(guān)心的問題,他們經(jīng)常通過不同方式組合策略,觀察搜索引擎的收錄,排名,來路情況,然后通過對比分析整理出相關(guān)的策略,這玩意說出來可以開很長一篇了,但今天就不提了。
但我說一個事實,很多外面的公司,做SEO的,會誤認為百度里面的人熟悉這里的門道和規(guī)律,很多人高價去挖百度的搜索產(chǎn)品經(jīng)理和技術(shù)工程師去做SEO,結(jié)果,呵呵,呵呵。 而外面那些草根創(chuàng)業(yè)者,有些善于此道的,真的比百度的人還清楚,搜索權(quán)值的影響關(guān)系,和更新頻次等等,比如前面說到的,身價幾十億的那個80后創(chuàng)業(yè)者。
基于結(jié)果反推策略,比身在其中卻不識全局的參與者,更能找到系統(tǒng)的關(guān)鍵點,有意思不。
3、查詢展現(xiàn)
用戶在瀏覽器或者在手機客戶端輸入一個關(guān)鍵詞,或者幾個關(guān)鍵詞,甚至一句話,這個在服務(wù)端,應(yīng)答程序獲取后處理步驟如下
第一步,會檢查最近時間有沒有人搜索過同樣的關(guān)鍵詞,如果存在這樣的緩存,最快的處理是將這塊緩存提供給你,這樣查詢效率最高,對后端負載壓力最低。
第二步,發(fā)現(xiàn)這個輸入查詢最近沒有搜索,或者有其他條件的原因必須更新結(jié)果,那么會將這個用戶輸入的詞,進行分詞,沒錯,如果不止一個關(guān)鍵詞,或者是一句話的情況下,應(yīng)答程序會又一次分詞,將搜索的查詢拆成幾個不同的關(guān)鍵詞。
第三步,將切分后的關(guān)鍵詞分發(fā)到查詢系統(tǒng)中,查詢系統(tǒng)會去索引庫查詢,索引庫是個龐大的分布式系統(tǒng),先分析這個關(guān)鍵詞屬于哪一塊哪一臺服務(wù)器,索引是一種有序的數(shù)據(jù)組合,我們用可以用近似二分法的方式思考,不管數(shù)據(jù)規(guī)模多大,你用二分法去查找一個結(jié)果,查詢頻次是log2(N),這個就保證了海量數(shù)據(jù)下,查詢一個關(guān)鍵詞是非??旆浅?斓?。 當然,實際情況會比二分法復(fù)雜很多,這樣說比較容易理解而已,再復(fù)雜些不是我不告訴大家,是我自己都不是很清楚呢。
第四步,不同關(guān)鍵詞的查詢結(jié)果(只是按權(quán)值排序的部分頂部結(jié)果,絕對不是全部結(jié)果),基于權(quán)值倒序,會再匯總在一起,然后把共同命中的部分反饋回來,并做最后的權(quán)值排序。
記住,搜索引擎絕對不會返回所有結(jié)果,這個開銷誰都受不了,百度也不行,google也不行,翻頁都是有限制的。
再記住,如果你多個關(guān)鍵詞里有多個不同品類冷門詞,搜索引擎有可能會舍棄其中一個冷門詞,因為匯總數(shù)據(jù)很可能不包含共同結(jié)果。搜索技術(shù)不要神話,這樣的范例偶爾會出現(xiàn)。
這是三大部分,多說一點,其實還有第四部分。
用戶點擊行為采集和反饋部分
基于用戶的翻頁,點擊分布,對搜索結(jié)果的優(yōu)劣做判定,并對權(quán)值做調(diào)整,但這個早期搜索引擎是沒有的,后面才有,所以暫時不列為必備的三大塊。
此外,一些對搜索優(yōu)化的機器學(xué)習(xí)策略,對易混詞識別,同音詞識別等等,相當部分也都基于用戶行為反饋進行,這是后話,這里不展開。
關(guān)于第四部分,我以前說過一個詞,點擊提權(quán),我說這個詞價值千金,我猜很多人并沒理解。沒理解就好,要不我要被一些同行罵死了。
以上是單指搜索引擎的工作原理,和一些技術(shù)邏輯,當然,只是入門級的解讀,畢竟再深入就不是我能講解的了。
但搜索引擎的本地化,并不局限于搜索技術(shù)的本地化。
百度的強大,不只是搜索技術(shù),當然有些人會說百度沒有搜索技術(shù),這種言論我就不爭論了,我不試圖改變?nèi)魏稳说挠^點,我只列一些事實而已。
百度的強大還來自于兩大塊,第一是內(nèi)容護城河,第二是入口把控。
前者是百度貼吧,百度mp3,百度知道,百度百科,百度文庫后者是hao123和百度聯(lián)盟。
這兩塊都是本地化,google進中國的時候,在這兩塊都有動作投資天涯,收購265,以及大力發(fā)展google聯(lián)盟,這些都是本地化。
此外,重申一下,百度全家桶的出現(xiàn)以及,百度全家桶和hao123的捆綁,是360崛起之后的事情,hao123從百度收購到360崛起之前,一直風平浪靜的沒做任何推廣和捆綁,從歷史事實而言,請勿將本地化等同于流氓化。
近期更新
- [2023-07-26 14:17:28] 為品牌賦能,海外官網(wǎng)品牌數(shù)字化
- [2023-05-06 10:32:26] 青島網(wǎng)站建設(shè)公司,高端網(wǎng)站定制,一站式網(wǎng)站服務(wù)——力圖數(shù)字科技
- [2023-04-27 13:47:54] 高端定制網(wǎng)站建設(shè)——從滿足預(yù)期到走向卓越
- [2023-04-11 09:17:49] H5頁面設(shè)計開發(fā)——移動端傳播利器
- [2022-11-16 10:11:43] windows2012程序在哪
- [2022-04-14 11:01:47] 力圖數(shù)字科技配套網(wǎng)站服務(wù)支持
- [2021-05-18 10:14:11] 青島網(wǎng)站建設(shè)的流程
- [2021-04-29 10:14:38] 企業(yè)定制化官網(wǎng)建設(shè)項目
- [2021-03-05 10:34:45] 移動互聯(lián)時代房地產(chǎn)行業(yè)的微信小程序解決方案
- [2021-01-22 17:29:38] 微信小程序有哪些優(yōu)勢?為什么要開發(fā)微信小程序?
- [2021-01-08 17:28:04] 網(wǎng)站建設(shè)最容易忽略的人性化設(shè)計
- [2020-12-16 16:55:32] 建設(shè)一個常規(guī)的公司網(wǎng)站建設(shè)成本大概是多少?
延伸閱讀
- [2012-05-10 22:54:20] 如何判斷瀏覽器為蘋果系統(tǒng)
- [2012-05-19 00:32:29] DIV懸浮的代碼
- [2015-01-22 17:58:31] 做網(wǎng)站優(yōu)化需要達到的目的是什么?
- [2012-02-21 22:36:55] 反饋表單的輸入優(yōu)化
- [2013-03-04 23:26:13] 如何將新聞做成偽原創(chuàng)
- [2016-12-02 16:33:00] 告別刻板沉悶,青島網(wǎng)站制作教您校園網(wǎng)站建設(shè)新思路
- [2013-09-30 02:33:25] 過多的美圖堆砌不出精美的網(wǎng)站設(shè)計
- [2012-11-20 16:28:40] 蘋果系統(tǒng)播放器
- [2015-03-17 09:27:56] 策劃開發(fā)制作營銷型網(wǎng)站?
- [2011-10-10 12:01:25] 青島網(wǎng)站設(shè)計如何做到文章偽原創(chuàng)
- [2012-10-29 10:46:12] 網(wǎng)頁文字的閱讀體驗
- [2012-05-27 01:28:35] 網(wǎng)頁設(shè)計好做嗎
解決方案
輪胎行業(yè)網(wǎng)站設(shè)計解決方案 機械行業(yè)網(wǎng)站設(shè)計解決方案 房地產(chǎn)行業(yè)網(wǎng)站設(shè)計解決方案 科技企業(yè)網(wǎng)站設(shè)計解決方案 電子家電網(wǎng)站設(shè)計解決方案 食品行業(yè)網(wǎng)站設(shè)計解決方案 集團公司網(wǎng)站設(shè)計解決方案 企事業(yè)單位網(wǎng)站設(shè)計解決方案 外貿(mào)行業(yè)網(wǎng)站設(shè)計解決方案 健身運動網(wǎng)站設(shè)計解決方案 美容與化妝品網(wǎng)站設(shè)計解決方案 建筑設(shè)計行業(yè)網(wǎng)站設(shè)計解決方案 物流行業(yè)網(wǎng)站設(shè)計解決方案
TAGS關(guān)鍵字
青島網(wǎng)站優(yōu)化 微信營銷的優(yōu)勢 H5定制設(shè)計 企業(yè)建站 網(wǎng)站的速度 網(wǎng)站優(yōu)化 圖形網(wǎng)格 青島網(wǎng)站建設(shè)基礎(chǔ)知識 膠南網(wǎng)站建設(shè)公司 網(wǎng)站設(shè)計趨勢 扁平化設(shè)計 舒適的界面 高端網(wǎng)站設(shè)計 蘋果系統(tǒng) 版面布局 集團公司網(wǎng)站建設(shè) 色彩心理學(xué) 互聯(lián)網(wǎng) 營銷型網(wǎng)站建設(shè) 青島網(wǎng)站SEO 青島網(wǎng)站案例 H5 微官網(wǎng) 網(wǎng)站制作 建站常識 html和css 企業(yè)網(wǎng)站 網(wǎng)站改版 英文網(wǎng)站建設(shè) robots