啟邁淺談搜索引擎工作的原理

發(fā)表日期：2010-05-27 瀏覽次數(shù)：2209次

今天合肥網(wǎng)站建設(shè)和大家說說一般的搜索引擎的工作原理，為什么我們能在搜索引擎里找到自己想要的東西，為什么搜索引擎能夠根據(jù)不同的關(guān)鍵字有不同的排名，等等這些原因。到底搜索引擎在怎么的工作，今天啟邁網(wǎng)絡(luò)就和大家說說這個(gè)問題。

一、了解爬行器或爬行蜘蛛

　　我們知道，之所以我們能夠在百度、谷歌中很快地找到我們需要的信息，就是因?yàn)樵诎俣群凸雀柽@樣的搜索引擎中，已經(jīng)預(yù)先為我們收錄了大量的信息。不管是哪方面的信息，不管是很早以前的，還是最近更新的，都能夠在搜索引擎中找到。

　　那么，既然搜索引擎需要預(yù)先收錄這些大量的信息，當(dāng)然它就必須到這個(gè)浩瀚的互聯(lián)網(wǎng)世界去抓取這些信息。據(jù)報(bào)道，全球網(wǎng)民已經(jīng)達(dá)到十幾億的規(guī)模了，那么這十幾億網(wǎng)民中，可想而知，每天能夠產(chǎn)生多少信息?搜索引擎又有何能耐把這么多的信息收錄在自己的信息庫中?它又如何做到以最快的速度取得這些信息的呢?

　　這個(gè)便是通過所謂的爬行器(crawler)或叫爬行蜘蛛(spider)來進(jìn)行的。稱謂很多，但指的都是同一種東西，都是描述搜索引擎派出的蜘蛛機(jī)器人在互聯(lián)網(wǎng)上探測新信息。而各個(gè)搜索引擎對自己的爬行器都有不同的稱謂：百度的叫 Baiduspider;Google的叫Googlebot;MSN的叫MSNbot;Yahoo則稱為Slurp。這些爬行器其實(shí)是用計(jì)算機(jī)語言編制的程序，用以在互聯(lián)網(wǎng)中不分晝夜的訪問各個(gè)網(wǎng)站，將訪問的每個(gè)網(wǎng)頁信息以最快的速度帶回自己的大本營。

　　二、搜索引擎每次能帶回多少信息

　　要想這些爬行蜘蛛每次能夠最大最多的帶回信息，僅僅依靠一個(gè)爬行蜘蛛在互聯(lián)網(wǎng)上不停的抓取網(wǎng)頁肯定是不夠的。所以，搜索引擎通過都會(huì)派出很多個(gè)爬行蜘蛛，讓它們通過瀏覽器上安裝的搜索工具欄，或網(wǎng)站主從搜索引擎提交頁面提交而來的網(wǎng)站為入口開始爬行，爬行到各個(gè)網(wǎng)頁，然后通過每個(gè)網(wǎng)頁的超級鏈接進(jìn)入下一個(gè)頁面，這樣不斷的繼續(xù)下去……

　　搜索引擎并不會(huì)將整個(gè)網(wǎng)頁的信息全部都取回來，有些網(wǎng)頁信息量很大，搜索引擎都只會(huì)取得每個(gè)網(wǎng)頁最有價(jià)值的信息，一般如：標(biāo)題、描述、關(guān)鍵詞等。所以，通常只會(huì)取得一個(gè)頁面的頭部信息，而且也只會(huì)跟著少量的鏈接走。百度大概一次最多能抓走120KB的信息，谷歌大約能帶走100KB左右的信息，因此，如果想你的網(wǎng)站大部分網(wǎng)頁信息都被搜索引擎帶走的話，那么就不要把網(wǎng)頁設(shè)計(jì)得太長，內(nèi)容太多。而是應(yīng)該多設(shè)計(jì)一些頁面，頁面內(nèi)容相應(yīng)少些，網(wǎng)頁之間的的鏈接設(shè)置好。這樣，對于搜索引擎來說，既能夠快速閱讀，又能夠帶走一個(gè)網(wǎng)頁幾乎所有的信息。

　　三、蜘蛛們是如何爬行的?

　　所有的蜘蛛的工作原理都是首先從網(wǎng)絡(luò)中抓取各種信息回來，放置于數(shù)據(jù)倉庫里。為什么稱為數(shù)據(jù)倉庫?因?yàn)榇藭r(shí)的數(shù)據(jù)是雜亂無章的，還是胡亂的堆放在一起的。因此，此時(shí)的信息也是不會(huì)出現(xiàn)在搜索結(jié)果中的，這就是為什么有些網(wǎng)頁明明有蜘蛛來訪問過，但是在網(wǎng)頁中還不能找到結(jié)果的原因。

　　搜索引擎將從網(wǎng)絡(luò)中抓取回來的所有資料，然后通過關(guān)鍵字描述等相關(guān)信息進(jìn)行分門別類整理，壓縮后，再編類到索引里，還有一部分抓取回來經(jīng)過分析發(fā)現(xiàn)無效的信息則會(huì)被丟棄。只有經(jīng)過編輯在索引下的信息，才能夠在搜索結(jié)果中出現(xiàn)。最后，搜索引擎則經(jīng)過用戶敲擊進(jìn)的關(guān)鍵字進(jìn)行分析，為用戶找出最為接近的結(jié)果，再通過與之關(guān)聯(lián)度最為接近到最不接近為序排列下來，呈現(xiàn)在最終用戶眼前。

　　四、重點(diǎn)介紹Google搜索引擎

　　Google搜索引擎使用兩個(gè)爬行器來抓取網(wǎng)頁內(nèi)容，分別是：Freshbot和Deepbot。深度爬行器 (Deepbot)每月執(zhí)行一次，其受訪的內(nèi)容在Google的主要索引中，而刷新爬行器(Freshbot)則是晝夜不停的在網(wǎng)絡(luò)上發(fā)現(xiàn)新的信息和資源，之后再頻繁地進(jìn)行訪問和更新。因此，一般Google第一次發(fā)現(xiàn)的或比較新的網(wǎng)站就在Freshbot的名單中進(jìn)行訪問了。

　　Freshbot的結(jié)果是保存在另一個(gè)單獨(dú)的數(shù)據(jù)庫中的，由于Freshbot是不停的工作，不停的刷新訪問內(nèi)容，因此，被它發(fā)現(xiàn)或更新的網(wǎng)頁在其執(zhí)行的時(shí)候都會(huì)被重寫。而且這些內(nèi)容是和Google主要索引器一同提供搜索結(jié)果的。而之前某些網(wǎng)站在一開始被 Google收錄，但是沒幾天，這些信息就在Google的搜索結(jié)果中消失了，直到一兩個(gè)月過去了，結(jié)果又重新出現(xiàn)在Google的主索引中。這就是由于 Freshbot在不停的更新和刷新內(nèi)容，而Deepbot要每月才出擊一次引起的，所以這些在Freshbot里的結(jié)果還沒有來得及更新到主索引中，又被新的內(nèi)容代替掉。直到Deepbot重新來訪問這一頁，收錄才真正進(jìn)入Google的主索引數(shù)據(jù)庫中!

[ 上一篇 ] 淺談新站如何交換到更多的高質(zhì)量的友情

[ 下一篇 ] PR更新在即我們?nèi)绾握_的看一個(gè)網(wǎng)站優(yōu)化的如何

將文章分享到:

相關(guān)新聞

互聯(lián)網(wǎng)的趨勢走向在線分析！

日期：19 瀏覽：20538

教育部：2022年普及網(wǎng)絡(luò)實(shí)名制空間在線學(xué)習(xí)納入升學(xué)評價(jià)

日期：19 瀏覽：19389

百度死了? 有這個(gè)組合我看死不了

日期：19 瀏覽：17249

互聯(lián)網(wǎng)應(yīng)用的兩個(gè)方向：“+互聯(lián)網(wǎng)”與“互聯(lián)網(wǎng)+”有什么不一樣？

日期：19 瀏覽：15389