淺談搜索引擎蜘蛛的工作原理

發(fā)表日期：2010-03-27 瀏覽次數(shù)：2321次

大家經(jīng)常都在講，文章被搜索引擎抓起。那么搜索引擎他的工作原理到底是什么呢，合肥網(wǎng)站建設(shè)根據(jù)自己的理解今天和大家說說，搜索引擎的數(shù)據(jù)庫，是一個龐大復(fù)雜的索引數(shù)據(jù)庫。搜索引擎在取網(wǎng)站頁面后，會被怎樣索引，搜索引擎為你的這個頁面建立什么樣的頁面文件嗎?

1、首先，你的頁面是”新”的，也就是原創(chuàng)與偽原創(chuàng)。

　　2、搜索引擎蜘蛛抓取了您的網(wǎng)站后，讀取頁面編碼，作者，創(chuàng)建時間等屬性信息。

　　3、抓取網(wǎng)站內(nèi)容信息，及我們常用的搜索引擎抓取模擬工具得出來的文字內(nèi)容。

4、將內(nèi)容按切詞技術(shù)，包括正反向切詞，正向切詞，反向切詞，關(guān)鍵字最少話切詞，反饋切詞技術(shù)等，得到一系列目標(biāo)關(guān)鍵字

5、抓取關(guān)鍵字出現(xiàn)的位置，在第3段模擬抓取中，我們可以看到title keywords與description，及頁面內(nèi)容。這可以很明顯得看出關(guān)鍵字出現(xiàn)的位置。

6、將第4段得到的目標(biāo)關(guān)鍵字與第5段得到的位置信息形成一個數(shù)組文檔。

　　7、當(dāng)有人搜索目標(biāo)關(guān)鍵字的時候，搜索引擎將讀取所有關(guān)于關(guān)鍵字的數(shù)組，根據(jù)一系列復(fù)雜的算法，得到這些頁面的排名順序，展現(xiàn)給訪客。

以上基本上就是一般的搜索引擎蜘蛛爬行你網(wǎng)頁后的結(jié)果。合肥網(wǎng)站建設(shè)也是根據(jù)一些資料得出這個結(jié)果的。因?yàn)檎f真的，搜索引擎他的工作原理一般情況下不會輕意的給說出來的。我們也只是一種猜想。

[ 上一篇 ] 谷歌飛走了，將由誰來替補(bǔ)他的位置

[ 下一篇 ] 做網(wǎng)頁的時候DOM對網(wǎng)站速度的影響

將文章分享到:

相關(guān)新聞

互聯(lián)網(wǎng)的趨勢走向在線分析！

日期：19 瀏覽：20942

教育部：2022年普及網(wǎng)絡(luò)實(shí)名制空間在線學(xué)習(xí)納入升學(xué)評價

日期：19 瀏覽：20893

百度死了? 有這個組合我看死不了

日期：19 瀏覽：18443

互聯(lián)網(wǎng)應(yīng)用的兩個方向：“+互聯(lián)網(wǎng)”與“互聯(lián)網(wǎng)+”有什么不一樣？

日期：19 瀏覽：16492