分析鏈接是常見的搜索引擎分析網(wǎng)頁結構的一種方式,一般是搜索引擎根據(jù)相關的鏈接分析算法,然后對與網(wǎng)頁相關的外鏈和內鏈進行詳細的數(shù)據(jù)整理和分析,并且根據(jù)這些鏈接的特點,再對網(wǎng)頁進行一個評分和排序,當就用戶搜索某個關鍵詞的時候,搜索引擎就會對與該關鍵詞相關主題的網(wǎng)頁中的這些鏈接進行一個合理分析,然后排序,最后就得到了排名的結構,在本文中,網(wǎng)站優(yōu)化要跟大家討論的主題是HITS,而HITS算法是鏈接分析算法中比較有代表性的一種。
HITS算法在應用中,一般都是利用HUB頁(網(wǎng)頁中很多鏈接,并且都是指向權威的頁面,一般都是導航或者目錄網(wǎng)頁)和Authority(就是被大量鏈接指向的網(wǎng)頁,也就是權威型的網(wǎng)頁)頁面之間指向鏈接的互相加強關系來對網(wǎng)頁給予分值計算,也就是說該算法的實施過程中是將搜索引擎從互聯(lián)網(wǎng)上抓去到全部網(wǎng)頁分為HUB頁面和Authority頁面,在搜索引擎看來,好的Hub網(wǎng)頁應該是指向很多的權威型的網(wǎng)頁,而權威值高的網(wǎng)頁應該是擁有很多指向Hub網(wǎng)頁的鏈接,所以我們由此而得出了HITS算法的核心思想:
首先,我們知道HITS算法是基于主題查詢的搜索引擎算法,所以當用戶向搜索引擎提交主題查詢時,搜索引擎根據(jù)用戶的檢索詞進行關鍵詞匹配查詢,同時返回若干項與主題高度相關的網(wǎng)頁集合S,在這些相關性的網(wǎng)頁集合中,網(wǎng)頁之間會有大量和網(wǎng)頁相關的鏈接,所以此時搜索引擎算法HITS算法就根據(jù)網(wǎng)頁上鏈接的特點將網(wǎng)頁集合S進行拓展,即將集合網(wǎng)頁上的鏈接,網(wǎng)頁引用的鏈接,和被其他頁面的引用的鏈接都加入到該集合中,形成一個新的集合T,同時我們對集合T的要求是:
1、T中都是和集合中網(wǎng)頁相關的頁面
2、T中的集合頁面都要于主題高度相關
3、T中要包含大量的HUB頁面和Authority頁面
在了解了HITS算法的核心思想之后,我們需要了解的就是如何根據(jù)該算法所給出的思想進行計算網(wǎng)頁集合中的網(wǎng)頁的權重來對搜索結果進行排序,那么下面筆者通過http://www.dguo.cn這個網(wǎng)站的操作方式對HITS算法進行進一步的解剖:我們可以將拓展出來的網(wǎng)頁集合T看做一個集合矩陣,同時將中的所有HUB網(wǎng)頁看做為頂點集A,將集合中包含的所有權威型的網(wǎng)頁看做是頂點集B,其中A中的網(wǎng)頁到B中的網(wǎng)頁的超鏈接為邊集E,形成一個二分有向圖SG=(A,B,E)。對HUB集合A中的任一個頂點a,用h(a)表示網(wǎng)頁a的Hub值,對B中的頂點b,用a(b)表示網(wǎng)頁的Authority值。開始時h(a)=a(b)=1,對b執(zhí)行I操作修改它的a(b),對a執(zhí)行O操作修改它的h(a),然后規(guī)范化a(b),h(a),如此不斷的重復計算下面的操作I,O,直到a(b),h(a)收斂。(證明此算法收斂可見)
分析:從以上算法思想中我們可以探討出很多問題,
1、比如如果用戶向搜索引擎提交查詢主題之后,搜索引擎要想為用戶提供精準的搜索結果時就必須對搜索結果進行拓展,而從簡單的搜索結果進行豐富拓展時需要大量的時間去分析,延長了用戶請求的響應時間,所以對搜索引擎來說不能在最短的時間內為用戶提供搜索結果就證明該算法是失敗的、不科學的。
2、一個網(wǎng)頁中包含了許多鏈接,比如導航鏈接、廣告鏈接、以及程序自動生成的鏈接,而這些鏈接的存在勢必會對搜索結果產(chǎn)生影響,在HITS算法中將搜索結果中出現(xiàn)的網(wǎng)頁鏈接都進行了分析,所以在搜索結果中可能會出現(xiàn)這些無效鏈接引用的網(wǎng)頁。
3、HITS算法對網(wǎng)頁集合的拓展也會導致新的問題出現(xiàn),因為是對搜索結果進行再次生成,所以在對集合進行擴展的時候不可避免的要增加很多頁面,有時這些頁面是和搜索結果中網(wǎng)頁有著些許的關系,只不過是被集合中的網(wǎng)頁引用了,所以一旦搜索結果中存在大量的這樣網(wǎng)頁的話,那么通過HITS算法的來的結果就會使得我們基于主題的查詢變寬泛了,也就是說我們可能得不到準確的搜索結果了。
4、HITS算法是基于主題查詢的,也就是說返回的結果是根據(jù)關鍵詞完全匹配的,注重的是與主題高度相關的主社區(qū),而對于那些有著不太相關的鏈接是很少能夠顧及到的,所以很容易在搜索結果中導致主題漂移問題,然而這個問題該算法暫時也無法解決,這點事最大的不足。