合肥市高新區(qū)長(zhǎng)江西路與科學(xué)大道交口5F創(chuàng)業(yè)園A座309
136 5560 1775

HITS算法是Web結(jié)構(gòu)挖掘中最具有權(quán)威性和使用最廣泛的算法

發(fā)表日期:2012-05-19 瀏覽次數(shù):2751次

做SEO優(yōu)化的朋友都知道HITS算法是Web結(jié)構(gòu)挖掘中最具有權(quán)威性和使用最廣泛的算法。但這個(gè)算法貌似不是很好懂,一般不經(jīng)過(guò)深思熟慮普通人是很難想通透的,如果有一天你搞得懂了HITS算法,也就意味著你的優(yōu)化技術(shù)已經(jīng)高人一等了。

該算法的大概思想是指利用頁(yè)面之間的引用鏈來(lái)發(fā)掘隱含在其中的有用信息(eg:權(quán)威性),具有計(jì)算簡(jiǎn)單且效率高的特點(diǎn)。HITS算法通過(guò)兩個(gè)評(píng)價(jià)權(quán)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)來(lái)對(duì)網(wǎng)頁(yè)質(zhì)量進(jìn)行評(píng)估。

內(nèi)容權(quán)威度與網(wǎng)頁(yè)自身直接提供內(nèi)容信息的質(zhì)量息息相關(guān),被越多網(wǎng)頁(yè)所引用的網(wǎng)頁(yè),其內(nèi)容權(quán)威度越高;鏈接權(quán)威度與網(wǎng)頁(yè)提供的超鏈接頁(yè)面的質(zhì)量相關(guān),引用越多高質(zhì)量頁(yè)面的網(wǎng)頁(yè),其鏈接權(quán)威度越高。

HITS算法認(rèn)為對(duì)每一個(gè)網(wǎng)頁(yè)應(yīng)該將其內(nèi)容權(quán)威度和鏈接權(quán)威度隔開(kāi)來(lái)思索,在對(duì)網(wǎng)頁(yè)內(nèi)容權(quán)威度做出評(píng)價(jià)的基礎(chǔ)上再對(duì)頁(yè)面的鏈接權(quán)威度進(jìn)行評(píng)價(jià),然后給出該頁(yè)面的綜合評(píng)價(jià)。然而HITS算法也有其顯然的不足。

首先,它完全將網(wǎng)頁(yè)的內(nèi)容或文本消除在外,僅思索網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)來(lái)剖析頁(yè)面的權(quán)威性,這與現(xiàn)實(shí)網(wǎng)絡(luò)中的權(quán)威頁(yè)面對(duì)比,其不科學(xué)性昭然若揭。因?yàn)闄?quán)威頁(yè)面必須針對(duì)某一主題或關(guān)鍵詞而言。某一頁(yè)面對(duì)一確定主題的具有較大權(quán)威性的頁(yè)面并不體表在其他與其無(wú)關(guān)的主題方面同樣具備權(quán)威性。

其次一個(gè)頁(yè)面對(duì)另一頁(yè)面的引用有多種情況,其中包含了一頁(yè)面對(duì)另一頁(yè)面的肯定,但除此之外也有其他目的鏈接,eg:為了導(dǎo)航或?yàn)榱烁顿M(fèi)廣告。而HITS算法在達(dá)成過(guò)程中均沒(méi)有思索以上情況.致使了結(jié)果與目標(biāo)的差距。就HITS算法的思想與實(shí)現(xiàn)過(guò)程做了詳細(xì)的研究與概括。

針對(duì)前面第一種瑕疵,就有相關(guān)的學(xué)者提出了一種利用超鏈文字及其周邊文字與關(guān)鍵字相匹配而計(jì)算超鏈權(quán)值的方法,并引入系數(shù)對(duì)周?chē)淖趾统溛淖诌M(jìn)行權(quán)值的相對(duì)遏制,很好地將頁(yè)面文本信息引入到HITS算法,提升了算法的可靠性,并在現(xiàn)實(shí)中取得了優(yōu)良的效果。

對(duì)HITS算法的第二個(gè)瑕疵,即非正常目的的引用.在HITS算法看來(lái),也誤認(rèn)為是正常引用,致使實(shí)際結(jié)果與目標(biāo)的出入。后來(lái),經(jīng)過(guò)不斷的改善。HITS算法又引入了時(shí)間參數(shù),即借助對(duì)一鏈接引用的時(shí)問(wèn)長(zhǎng)短來(lái)評(píng)判是否為正常引用。因?yàn)榉钦f溄悠湟脮r(shí)問(wèn)必將不會(huì)很長(zhǎng)(eg:交換鏈接、廣告鏈接),相反,倘若一頁(yè)面對(duì)另一頁(yè)面的鏈接時(shí)間較長(zhǎng),則必將反映此頁(yè)面就是用戶的相找頁(yè)面。即目標(biāo)頁(yè)面或起碼是正常引用。

倘使設(shè)定時(shí)間閥值,則可以將非正常引用的鏈接在HITS算法的實(shí)現(xiàn)過(guò)程中甄選出來(lái)。如設(shè)定訪問(wèn)時(shí)間少于1min者為非正常引用。另外可構(gòu)造時(shí)間訪問(wèn)函數(shù),遏制權(quán)威頁(yè)面的相對(duì)大小。如隨訪問(wèn)時(shí)間的增大而其權(quán)威性也逐漸非線性增大.這樣可為HITS算法的權(quán)威頁(yè)面提供更得當(dāng)、更科學(xué)的解釋。SEO優(yōu)化鏈接穩(wěn)定性,在外部鏈接的建設(shè)中,占領(lǐng)非常重要的地位。鏈接越穩(wěn)定,對(duì)排名的幫助就愈大。

將文章分享到:

版權(quán)所有:?jiǎn)⑦~科技-合肥網(wǎng)站建設(shè) 皖I(lǐng)CP備19009304號(hào)-1 皖公網(wǎng)安備 34010402702162號(hào)

網(wǎng)站建設(shè),網(wǎng)站設(shè)計(jì)公司啟邁科技,為眾多企業(yè)提供網(wǎng)站建設(shè),網(wǎng)站制作,響應(yīng)式網(wǎng)站設(shè)計(jì),手機(jī)網(wǎng)站建設(shè),微網(wǎng)站,模板建站,企業(yè)郵箱等一站式互聯(lián)網(wǎng)解決方案和建站服務(wù)10年。