如何吸引搜索引擎蜘蛛來爬取網(wǎng)站的內(nèi)容呢？蜘蛛又是怎樣爬取網(wǎng)站內(nèi)容的？

發(fā)表日期：2014-07-24 瀏覽次數(shù)：2124次

　　我們做優(yōu)化的目的就是讓網(wǎng)站更吸引蜘蛛的到來，蜘蛛來的越頻繁說明你的網(wǎng)站做的越好，而爬行就是蜘蛛到網(wǎng)站的途徑方式，爬行是指蜘蛛在頁面上沿著鏈接發(fā)現(xiàn)新頁面，然后“爬”過去抓取新頁面。抓取是指蜘蛛發(fā)現(xiàn)新頁面后，像瀏覽器一樣打開頁面，把頁面HTML代碼存入數(shù)據(jù)庫。兩個概念在英文中通常都是用crawl或spider(這里是動詞)表示，視上下文才能分出是指哪個。那么蜘蛛的爬行又是怎樣規(guī)則呢？
　　顯然，爬行和抓取是相互交織的。抓取是實(shí)際發(fā)生的我們能夠觀察到的過程，在原始日志中，蜘蛛的抓取是有完整記錄的，比如：抓取確切時間、狀態(tài)碼、抓取的文件是哪個、抓取了多大文件等等。蜘蛛對頁面的抓取就和瀏覽器讀取文件是完全一樣的。
　　而爬行只是一個形象的比喻，實(shí)際上并不存在蜘蛛抓取文件時發(fā)現(xiàn)鏈接然后立即跟蹤過去這樣一個過程。蜘蛛抓取文件后存入數(shù)據(jù)庫，程序解析出文件中的鏈接后將URL存入頁面地址庫，然后蜘蛛從地址庫中按一定規(guī)則選取URL進(jìn)行抓取。蜘蛛不是真的訪問頁面時看到一個URL就爬過去。
　　索引指的是將一個URL的信息進(jìn)行各種整理，如去重、分詞等等，然后將關(guān)于這個URL的信息存入數(shù)據(jù)庫，被稱為索引庫。真正用于搜索的是倒排索引，以后有機(jī)會再細(xì)說。要注意的是，索引庫中關(guān)于URL的信息不僅是組成頁面內(nèi)容的關(guān)鍵詞及其特征(位置、格式等)，還有鏈接、更新情況等信息。英文索引這個詞是index。
　　收錄是SEO們最關(guān)心也最常用的詞，其實(shí)也是4個概念中最不明確的。被收錄指的是我們能查到頁面被搜索引擎存入了索引庫。但后面我們會看到，進(jìn)入索引庫的URL并不一定被抓取過，這和SEO們的直覺可能是不一樣的。
　　當(dāng)然，精準(zhǔn)掌握概念不是為了咬文嚼字，而是對很多SEO問題的理解和處理有影響。下面舉幾個例子。
　　收錄不全是什么原因?
　　頁面不收錄是SEO們最頭疼的問題之一，不收錄就談不上排名、流量了。太多人在博客、論壇里問頁面不被收錄是什么原因，也給出了域名，但這種問題是沒法回答的，即使愿意花時間去診斷也不能回答(除非列出所有可能的原因，等于沒回答)，因?yàn)槿绷艘粋€關(guān)鍵信息：頁面被抓取了沒有?這只有查原始日志才能知道，看網(wǎng)站是看不出來的，查流量也是查不出來的。了解前面的概念就知道，被抓取不一定被收錄，沒被收錄也不一定意味著沒被抓取。
　　如果頁面被抓取過卻沒被索引和收錄，應(yīng)該往內(nèi)容是否有問題(原創(chuàng)?采集?所謂偽原創(chuàng)?敏感內(nèi)容或產(chǎn)品?復(fù)制內(nèi)容?)方向去找原因。網(wǎng)站結(jié)構(gòu)應(yīng)該沒有大問題，搜索引擎是看了內(nèi)容之后覺得不適合收錄的。如果頁面壓根就沒被抓取過，則應(yīng)該往網(wǎng)站和鏈接結(jié)構(gòu)、搜索引擎不友好的技術(shù)障礙、域名權(quán)重等方面去找。蜘蛛的爬行和抓取我們很難來把握，但是我們會有意識的去討好蜘蛛，從而吸引蜘蛛，所以大家在做優(yōu)化的時候還是需要仔細(xì)留意。

[ 上一篇 ] 一個網(wǎng)站的制作到底需要多長時間呢？

[ 下一篇 ] 一個網(wǎng)站設(shè)計的標(biāo)準(zhǔn)如何從客戶的角度去評判

將文章分享到:

相關(guān)新聞

互聯(lián)網(wǎng)的趨勢走向在線分析！

日期：19 瀏覽：20539

教育部：2022年普及網(wǎng)絡(luò)實(shí)名制空間在線學(xué)習(xí)納入升學(xué)評價

日期：19 瀏覽：19413

百度死了? 有這個組合我看死不了

日期：19 瀏覽：17272

互聯(lián)網(wǎng)應(yīng)用的兩個方向：“+互聯(lián)網(wǎng)”與“互聯(lián)網(wǎng)+”有什么不一樣？

日期：19 瀏覽：15404

如何吸引搜索引擎蜘蛛來爬取網(wǎng)站的內(nèi)容呢？蜘蛛又是怎樣爬取網(wǎng)站內(nèi)容的？

如何吸引搜索引擎蜘蛛來爬取網(wǎng)站的內(nèi)容呢？蜘蛛又是怎樣爬取網(wǎng)站內(nèi)容的？