合肥市高新區(qū)長江西路與科學(xué)大道交口5F創(chuàng)業(yè)園A座309
136 5560 1775

搜索引擎的組成部分:蜘蛛、指數(shù)、界面

發(fā)表日期:2010-01-03 瀏覽次數(shù):3141次

    搜索引擎的歷史并不長,但搜索引擎為互聯(lián)網(wǎng)所作出的巨大貢獻(xiàn)卻顯而易見,搜索引擎改變了世界,改變了用戶的使用習(xí)慣,讓我對互聯(lián)網(wǎng)的未來充溢信心。

    搜索引擎起步的時候做的并不好,第一個搜索引擎甚至沒有分析網(wǎng)頁的副本,而且沒有排名的規(guī)范,為了深度挖掘商業(yè)潛力,這才推動搜索引擎漸漸發(fā)展,研發(fā)更先進(jìn)的系統(tǒng)。

    第一個比較大的商業(yè)搜索引擎是美國的斯坦福大學(xué), 2001 年花 65 億美元購買了 @ 主頁。開始推廣的時候,最大的競爭對手是網(wǎng)址站,主要是因為那時候搜索結(jié)果中很多都是垃圾郵件,而且人們還不習(xí)慣用搜索引擎。

    元標(biāo)記是協(xié)助搜索引擎排序的一個工具,通常叫做關(guān)鍵詞堆砌。一旦搜索關(guān)鍵詞,那關(guān)鍵字和元標(biāo)志就會告訴搜索引擎內(nèi)容是哪一頁,很短的時間做好中繼標(biāo)記工作,提供相關(guān)搜索結(jié)果,但隨著一些企業(yè)的市場營銷經(jīng)驗增加,很容易提高關(guān)鍵詞的排名,那時候比較流行 “ 貸款、貸款、貸款 ” 之類的關(guān)鍵詞堆砌,所以當(dāng)時搜索引擎的垃圾信息泛濫成災(zāi),造成許多用戶的不信任感。

    那時候一些重要的搜索引擎包括: EINet 銀河、 WebCrawl 萊科斯、 Infoseek Inktomi Ask AllTheWeb 等。

每一個搜索引擎都有三個主要部分組成:

1 蜘蛛

    蜘蛛的工作職責(zé)是發(fā)現(xiàn)新的網(wǎng)頁并收集這些網(wǎng)頁的快照,然后分析該網(wǎng)頁。

蜘蛛以抓取頁面為主,比如掃描網(wǎng)頁,所有的搜索引擎都能夠?qū)崿F(xiàn)深層檢索和快速檢索。深層檢索中,蜘蛛可以查找和掃描網(wǎng)頁內(nèi)的所有內(nèi)容;快速檢索中,蜘蛛不遵循深層檢索的規(guī)則,只搜索重要的關(guān)鍵詞局部,而不檢查和掃描網(wǎng)頁里的所有內(nèi)容。

    大家都知道網(wǎng)站最重要的快照時間,也就是說蜘蛛爬行和收錄的網(wǎng)頁速度越快,就說明這個網(wǎng)站在搜索引擎心中越重要,比如新華網(wǎng)和人民網(wǎng),蜘蛛每小時爬 4 次以上,有的網(wǎng)站一個月也不見得能被蜘蛛爬一次??煺盏淖ト〕潭热Q于網(wǎng)站內(nèi)容的流行度、更新速度與網(wǎng)站域名的新舊。

蜘蛛的爬行規(guī)則中,如果有許多外部鏈接指向這個網(wǎng)站,那就說明這個網(wǎng)站比較重要,所以抓取這個網(wǎng)站的頻率很高。當(dāng)然,搜索引擎這樣做也是為了省錢,如果都以同樣的頻率爬行所有網(wǎng)站,這樣需要更多的時間和成本,才干得到更全面的搜索結(jié)果。

2 指數(shù)

    蜘蛛在爬行的過程中,可能會重復(fù)檢查網(wǎng)頁的內(nèi)容,然后檢查網(wǎng)站內(nèi)容是否是復(fù)制其他網(wǎng)站的以保證網(wǎng)站原創(chuàng)內(nèi)容的指數(shù),該指數(shù)的結(jié)果一般都是基本堅持復(fù)制內(nèi)容的排序搜索結(jié)果。當(dāng)你進(jìn)行搜索時,搜索引擎不會從網(wǎng)絡(luò)上搜索,會從指數(shù)中選擇搜索結(jié)果,所以搜索得到網(wǎng)頁數(shù)量并不能代表整個網(wǎng)站,但蜘蛛會在后臺掃描和保存網(wǎng)站的網(wǎng)頁數(shù)量。

    搜索結(jié)果數(shù)量中,谷歌 1-10 個搜索結(jié)果約為 16.05 萬,還有每個區(qū)域的搜索結(jié)果排名,這些都可以用搜索引擎的算法指數(shù)來控制,或者說是控制一部分。

每個搜索引擎在全國或全世界各地都建立數(shù)據(jù)中心,當(dāng)你輸入需要搜索的關(guān)鍵詞的時候,會由于數(shù)據(jù)更新的時間不同而致搜索結(jié)果同步,所以在不同的地區(qū)就會出現(xiàn)不同的搜索結(jié)果。

3 Web 界面

    當(dāng)你使用搜索引擎所看到界面(比方 google.com baidu.com 搜索結(jié)果取決于復(fù)雜的算法,算法都是從指數(shù)內(nèi)調(diào)用結(jié)果,通過查詢并分析才能在前臺顯示,所以算法的制作時間比較長,谷歌在這個技術(shù)領(lǐng)域上領(lǐng)先。

還有一些搜索引擎的一站式 ” 特性,這類特性在英文搜索上比較常見,一般來說,搜索引擎忽略 “ 一站式 ” 話,這樣的搜索結(jié)果將更加正確,比如搜索 “ 貓,狗 ” 時候,搜索引擎會排除 “ 貓和狗 ” 只搜索 “ 貓 ” 狗 ”

    關(guān)鍵詞密度是衡量一個關(guān)鍵詞出現(xiàn)在網(wǎng)頁上的頻率,一般搜索引擎看到某網(wǎng)頁上的關(guān)鍵詞逾越密度范圍,那它就會分析該網(wǎng)頁是否作弊,現(xiàn)在搜索引擎可以做到任何地域的字詞相關(guān)度處理。所以在一般情況下,關(guān)鍵詞應(yīng)該在整個網(wǎng)頁中分散,但一定要有某個標(biāo)題或段落長期不變。

    搜索引擎還有個核心分析技術(shù)就是鏈接的相關(guān)性分析,除了網(wǎng)頁排名和一般的鏈接,谷歌還看重錨文本鏈接,錨文本鏈接主要在于鏈接的年齡和位置,還有該鏈接的網(wǎng)頁是否屬于權(quán)威網(wǎng)站等。

鏈接是最大的網(wǎng)站質(zhì)量指標(biāo),搜索引擎都很關(guān)注著,因為現(xiàn)在友情鏈接比較難找,而你又很需要友情鏈接,所以鏈接中很少有垃圾信息。比如大學(xué)的網(wǎng)站在谷歌的權(quán)重很高,那是由于大學(xué)有很多高質(zhì)量的外部鏈接。隨著大家都了解到外部鏈接的重要性后,很多網(wǎng)站開始買賣鏈接,這也是現(xiàn)在搜索引擎比較頭疼的問題,不過 ask 現(xiàn)在判定網(wǎng)站排名更多在于網(wǎng)站的質(zhì)量。

    所有的搜索引擎都希望得到用戶反饋的信息,期待在查詢之前、搜索查詢、時間間隔、和語義關(guān)系等方面,能更加了解到用戶的意圖,還會跟蹤用戶的點擊,如果用戶點擊一個物品,然后又馬上回到搜索頁面,那搜索引擎就會認(rèn)為這個購買不成功,會刪除跟蹤清單,其實這種做法已經(jīng)在向電子商務(wù)靠近了

由此可以看出,搜索引擎已經(jīng)開始注重用戶體驗,為了做讓用戶肯定自己的勞動效果,并成為搜索引擎行業(yè)的一個標(biāo)準(zhǔn),或許未來的發(fā)展就在個性化搜索。


將文章分享到:

版權(quán)所有:啟邁科技-合肥網(wǎng)站建設(shè) 皖I(lǐng)CP備19009304號-1 皖公網(wǎng)安備 34010402702162號

網(wǎng)站建設(shè),網(wǎng)站設(shè)計公司啟邁科技,為眾多企業(yè)提供網(wǎng)站建設(shè),網(wǎng)站制作,響應(yīng)式網(wǎng)站設(shè)計,手機(jī)網(wǎng)站建設(shè),微網(wǎng)站,模板建站,企業(yè)郵箱等一站式互聯(lián)網(wǎng)解決方案和建站服務(wù)10年。