網站營運管理技巧-我們提供專業的網站營運管理服務和搜索引擎優化親善行為排名服務。 - 網站營運基礎知識http://www.myzuro.live/搜索引擎優化_google排名_baidu排名 - RainbowSoft Studio Z-Blog 1.8 Arwen Build 90619zh-CNCopyright 搜索引擎優化小組 Rights Reserved. 提供:網站營運_網站優化服務 [銀泓電子商務營銷導向機構] 電話:021-5169 5729 Sat, 24 Aug 2019 08:01:52 +0800 網站沒有被百度收錄是什么原因?net@yinhong.sh.cn (mocca)http://www.myzuro.live/post/150.htmlWed, 17 Feb 2010 23:39:38 +0800http://www.myzuro.live/post/150.html下面是去年我們的網站建設團隊撰寫的一篇關于搜索引擎百度不收錄網站的小文章,看后,覺得有值得借鑒的地方,這就信手拾來,貼在這里,或,對于某些有心人能加以為鑒。

今天在電話里被朋友問及他們公司建了快一年了的一個網站,最近發現網站原來一直沒有被百度收錄過的問題。朋友說:很不理解這種現象。為什么百度不收錄我們的網站頁面?

其實是這位朋友沒有看過百度關于網站收錄的宣言,否則他應該能明白或能夠領悟出個中的原由。說實話,一個網站建成后,百度不收錄或收錄后又被拋棄,就會出現這樣的現象。其中的主要原因一般就是:百度認為這個網站沒有價值。于是搜索引擎百度就不會去收錄,或收錄后又會將收錄的結果予以摒棄,對于網站主,這可是很可悲的現象。

搜索引擎收錄網站的頁面,都有自己的標準,前提都一樣,這就是網站的內容和網站的頁面對于用戶是有價值的,這是前提。所以,百度在很早之前也這樣說了:任何網頁在搜索結果中的去留變化,都是機器算法計算和調整的結果。這個結果其實就是按照搜索引擎既定的原則來決定的。

那么,怎樣的網站是不受百度歡迎的勒?按照百度的說法,下面的這三類網站是不受歡迎的:

1、采用低劣的搜索引擎優化手法。也就是在網站或網站頁面上做了更多的手腳,讓網站或網頁更多地針對搜索引擎,而不是為了給網站瀏覽者帶來更好的瀏覽體驗,通過這樣的處理,瀏覽者通過搜索引擎的搜索結果看到的內容與網站頁面內容存在不實,或者讓網站頁面在搜索結果中獲得了不恰當的排名,誤導瀏覽者,導致瀏覽者蒙受欺騙;

2、網站或網站頁面內容是復制來來自其他網站上的高度重復性的內容;

3、網站內存在不符合我國法律、法規的內容等。

現在很多企業建網站,總是會盲目行事,以為隨便找一家能做網站的公司做個網站就可以在網上賺錢了,更有甚者為貪小便宜,希望能從中騙取一點廉價的勞動力,寧可找個兼職或“做私活”的來幫助企業行使網站建站的重任,這是很不妥當的,這樣做,等于九是把自己企業的一個主要部門——銷售部放任給一個道聽途說的銷售人員去組建團隊,開自己的玩笑。

企業做網站,其實不僅僅是為做網站而做網站,否則,做出來的網站出現被“百度不收錄”的現象,出現這樣低級錯誤,也是情理之中的事情。所以,我們的網站營運管理人員和某些企業主應該清醒地認識到這其中的道理。
 

搜索引擎優化小組(http://www.myzuro.live
原文URL:http://www.myonline.sh.cn/webdesign/WangZhanBuBeiBaiDuShouLuDeYuanYin/ 引用至此,稍有修改。
 

[搜索引擎百度收錄網站提交入口] [網頁不讓百度收錄的方法] [讓百度收錄網站或blog的方法]

]]>
網站營運基礎知識http://www.myzuro.live/post/150.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=150http://www.myzuro.live/cmd.asp?act=tb&id=150&key=608db236
第一個出現的域名net@yinhong.sh.cn (mocca)http://www.myzuro.live/post/136.htmlSun, 20 Dec 2009 00:35:33 +0800http://www.myzuro.live/post/136.html
據報道,歷史上第一個出現——也是最早出現的域名是.com域名。它在1985年3月15日被最早注冊。當時,電腦操作系統使用的還是DOS操作系統。這個域名就是symbolics.com。

據稱,symbolics.com當時的主人是一家電腦制造商,90年代初,域名symbolics.com的擁有者宣布破產,域名symbolics.com隨后易主。

 

搜索引擎優化小組(http://www.myzuro.live)

 

[域名的功用性和投資價值] [什么是影子域名?]

]]>
網站營運基礎知識http://www.myzuro.live/post/136.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=136http://www.myzuro.live/cmd.asp?act=tb&id=136&key=d5efcb0c
IP查封,服務器搬家,使用國內空間的悲哀!e@yinhong.sh.cn (admin)http://www.myzuro.live/post/130.htmlWed, 25 Nov 2009 23:19:56 +0800http://www.myzuro.live/post/130.html網站營運管理技巧幾乎整整被關閉了一周,由于服務器被查封,一直不能打開,嗚呼!于是感嘆一下,今天總算松了一口氣。但是結果自然是不言皆明,有點可悲。

搜索引擎優化(http://www.myzuro.live)小組一直倡導客戶使用安定、優良的服務器,但是,沒有預料到,極其謹慎的我們也被忽悠。所以,作為企業網站營運管理者,一定要注意慎防,不要輕易再步我們的后塵。

一周有禮。這里,搜索引擎優化(http://www.myzuro.live)小組以一個團隊的名義,順便問候大家!同時恭祝順心如意。

 

搜索引擎優化(http://www.myzuro.live)小組

[網站更換服務器與搜索引擎收錄]

]]>
網站營運基礎知識http://www.myzuro.live/post/130.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=130http://www.myzuro.live/cmd.asp?act=tb&id=130&key=68f6cf16
企業網站建設的誤區——百度如是說!e@yinhong.sh.cn (admin)http://www.myzuro.live/post/125.htmlSun, 25 Oct 2009 22:17:32 +0800http://www.myzuro.live/post/125.html對于網站建設的評說,偌大個互聯網上其實早已經是眾說紛紜,鳥語更是繽紛不斷。但對網站在建設過程中遺漏下來的建站錯誤,比百度說得更基礎、更詳細的好像還不多見。很多時候,企業網站建設的這個誤區,讓不少企業主仿佛置身于云里霧里,他們只能無奈地凝望著網絡空間漫天飄舞、和更多“人云亦云”的深奧斷章。

百度在他的“e”里是這樣說的,搜索引擎優化小組(http://www.myzuro.live/)全文照錄如下。

一、關于網站的訪問速度、訪問友好性。

部分網站打開速度過慢,導致潛在客戶白白流失;部分首頁設置為Flash的網站,影響傳輸速度,用戶很容易就因為不愿耐心等候而選擇中途跳開 ;或者未將進入按鈕放置于明顯位置,未配以明確的中文說明,導致訪客無法正常瀏覽網站,造成較高的點擊無效率。

二、關于網站的界面設計。

用色雜亂,浮窗、Flash、特效文字等嚴重破壞了界面美觀程度,影響用戶體驗;錯別字較多,在產品展示部分以以掃描圖片代替文字說明,圖片中的文字模糊不可辯認;文字未排版、字體不一致等。
 
三、關于企業的基本信息。

公司介紹過于簡陋,千篇一律,對企業資質、實力的介紹不夠突出,缺乏可信度;業務說明較為粗略,未提供業務范圍、應用領域、面向市場、貨運條件等基本信息;產品展示不夠詳盡,有時僅展示圖片而未配以文字說明;產品圖示質量差,有粗制濫造之嫌;產品列表未及時更新,已停產或不生產產品時還出現在其中。
 
四、關于用戶的使用體驗。

導航不清晰、不易點擊,欄目分類不合理,頁面跳轉時導航位置時有變動,加上缺乏站內搜索功能,導致信息的獲取和查找不便;部分網站存在彈窗/多窗口、忙死鏈、未標記鏈接現象,進一步增加了訪客信息獲取成本,損害了用戶體驗。
 
五、與客戶之間的互動性。

部分網站沒有標明企業的聯系電話、傳真、Email和地址,電話咨詢到達效率低下,聯系部門不明確甚至有誤,業務/銷售部門與技術部門接口不暢;對于網站內容、產品特色等缺乏基本了解,不能快速、準確、清晰地回答來電咨詢,當場查詢或轉接期間等候時間過長,態度不夠友好;網站具備留言功能,但部分網站留言缺乏管理,垃圾留言無效留言嚴重;缺乏即時溝通IM和在線訂單,不能有效地促成訪問者向客戶轉化。

 

搜索引擎優化小組(http://www.myzuro.live/

[企業營銷網站建設和管理不能疏忽的四個細節]

]]>
網站營運基礎知識http://www.myzuro.live/post/125.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=125http://www.myzuro.live/cmd.asp?act=tb&id=125&key=2333612c
Google搜索引擎原理概述e@yinhong.sh.cn (admin)http://www.myzuro.live/post/124.htmlFri, 23 Oct 2009 17:27:58 +0800http://www.myzuro.live/post/124.html1、緒論

Web給信息檢索帶來了新的挑戰。Web上的信息量快速增長,同時不斷有毫無經驗的新用戶來體驗Web這門藝術。

人們喜歡用超級鏈接來網上沖浪,通常都以象Yahoo這樣重要的網頁或搜索引擎開始。大家認為List(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護的代價高,升級慢,不能包括所有深奧的主題。

基于關鍵詞的自動搜索引擎通常返回太多的低質量的匹配。使問題更遭的是,一些廣告為了贏得人們的關注,想方設法誤導自動搜索引擎。我們建立了一個大型搜索引擎解決了現有系統中的很多問題。應用超文本結構,大大提高了查詢質量。我們的系統命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個大型搜索引擎不謀而合。

1.1網絡搜索引擎—升級換代(scaling up):

1994-2000 搜索引擎技術不得不快速升級(scale dramatically)跟上成倍增長的web數量。

1994年,第一個Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個網頁和Web的文件。

到1994年11月,頂級的搜索引擎聲稱可以檢索到2‘000'000(WebCrawler)至100‘000'000個網絡文件(來自 Search Engine Watch)。

可以預見到2000年,可檢索到的網頁將超過1‘000'000‘000。同時,搜索引擎的訪問量也會以驚人的速度增長。

在1997年的三四月份,World Wide Web Worm 平均每天收到1500個查詢。

在1997年11月,Altavista 聲稱它每天要處理大約20'000'000個查詢。隨著網絡用戶的增長.

到2000年,自動搜索引擎每天將處理上億個查詢。我們系統的設計目標要解決許多問題,包括質量和可升級性,引入升級搜索引擎技術(scaling search engine technology),把它升級到如此大量的數據上。

1.2 Google:

跟上Web的步伐(Scaling with the Web)建立一個能夠和當今web規模相適應的搜索引擎會面臨許多挑戰。抓網頁技術必須足夠快,才能跟上網頁變化的速度(keep them up to date);存儲索引和文檔的空間必須足夠大;索引系統必須能夠有效地處理上千億的數據;處理查詢必須快,達到每秒能處理成百上千個查詢 (hundreds to thousands per second.)。

隨著Web的不斷增長,這些任務變得越來越艱巨。然而硬件的執行效率和成本也在快速增長,可以部分抵消這些困難。還有幾個值得注意的因素,如磁盤的尋道時間(disk seek time),操作系統的效率(operating system robustness)。在設計Google的過程中,我們既考慮了Web的增長速度,又考慮了技術的更新。Google的設計能夠很好的升級處理海量數 據集。它能夠有效地利用存儲空間來存儲索引。優化的數據結構能夠快速有效地存取(參考4.2節)。

進一步,我們希望,相對于所抓取的文本文件和HTML網頁的數量而言,存儲和建立索引的代價盡可能的小。對于象Google這樣的集中式系統,采取這些措施得到了令人滿意的系統可升級性(scaling properties)。

1. 3設計目標

1.3.1提高搜索質量我們的主要目標是提高Web搜索引擎的質量。

1994年,有人認為建立全搜索索引(a complete search index)可以使查找任何數據都變得容易,根據Best of the Web 1994 -- Navigators,“最好的導航服務可以使在Web上搜索任何信息都很容易(當時所有的數據都可以被登錄)”。然而1997年的Web就迥然不同。

近來搜索引擎的用戶已經 證實索引的完整性不是評價搜索質量的唯一標準。用戶感興趣的搜索結果往往湮沒在“垃圾結果Junk result”中。

實際上,到1997年11月為止,四大商業搜索引擎中只有一個能夠找到它自己(搜索自己名字時返回的前十個結果中有它自己)。導致這一問題的主要原因是文檔的索引數目增加了好幾個數量級,但是用戶能夠看的文檔數卻沒有增加。用戶仍然只希望看前面幾十個搜索結果。

因此,當集合增大時,我們 就需要工具使結果精確(在返回的前幾十個結果中,有關文檔的數量)。由于是從成千上萬個有點相關的文檔中選出幾十個,實際上,相關的概念就是指最好的文 檔。高精確非常重要,甚至以響應(系統能夠返回的有關文檔的總數)為代價。令人高興的是利用超文本鏈接提供的信息有助于改進搜索和其它應用 。尤其是鏈接結構和鏈接文本,為相關性的判斷和高質量的過濾提供了大量的信息。

Google既利用了鏈接結構又用到了anchor文本(見2.1和2.2 節)。

1.3.2搜索引擎的學術研究隨著時間的流逝,除了發展迅速,Web越來越商業化。

1993年,只有1.5%的Web服務是來自.com域名。到1997年,超過了60%。同時,搜索引擎從學術領域走進商業。到現在大多數搜索引擎被公司 所有,很少公開技術細節。這就導致搜索引擎技術很大程度上仍然是暗箱操作,并傾向做廣告(見附錄A)。Google的主要目標是推動學術領域在此方面的發展和對它的了解。另一個設計目標是給大家一個實用的系統,應用對我們來說非常重要,因為現代網絡系統中存在大量的有用數據(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有幾千萬個研究。然而,得到這些數據卻非常困難,主要因為它們沒有商業價值。我們最后的設計目標是建立一個體系結構能夠支持新的關于海量Web數據的研究。

為了支持新研究,Google以壓縮的形式保存了實際所抓到的文檔。設計google的目標之一就是要建立一個環境使其他研究者能夠很快進入這個領域,處理海量Web數據,得到滿意的結果,而通過其它方法卻很難得到結果。系統在短時間內被建立起來,已經有幾篇論文用到了Google建的數據庫,更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環境,在這里研究者甚至學生都可以對我們的海量Web數據設計或做一些實驗。

2、系統特點

Google搜索引擎有兩個重要特點,有助于得到高精度的搜索結果。

第一點,應用Web的鏈接結構計算每個網頁的Rank值,稱為PageRank,將在98頁詳細描述它。
第二點,Google利用超鏈接改進搜索結果。

2.1 PageRank:

給網頁排序Web的引用(鏈接)圖是重要的資源,卻被當今的搜索引擎很大程度上忽視了。我們建立了一個包含518‘000'000個超鏈接的圖,它是一個具有重要意義的樣本。這些圖能夠快速地計算網頁的PageRank值,它是一個客觀的標準,較好的符合人們心目中對一個網頁重要程度的評價,建立的基礎是通過引用判斷重要性。

因此,在web中,PageRank能夠優化關鍵詞查詢的結果。對于大多數的主題,在網頁標題查詢中用PageRank優化簡單文本匹配,我們得到了令人驚嘆的結果(從google.stanford.edu可以得到演示)。對于Google主系統中的全文搜索,PageRank也幫了不少忙。

2.1.1計算PageRank

文獻檢索中的引用理論用到Web中,引用網頁的鏈接數,一定程度上反映了該網頁的重要性和質量。PageRank發展了這種思想,網頁間的鏈接是不平等的。 PageRank定義如下:我們假設T1…Tn指向網頁A(例如,被引用)。參數d是制動因子,使結果在0,1之間。通常d等于0.85。在下一節將詳細 介紹d。C(A)定義為網頁A指向其它網頁的鏈接數,網頁A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個網頁中,因此,所有網頁的PageRank和是1。

PageRank或PR(A)可以用簡單的迭代算法計算,相應規格化Web鏈接矩陣的主特征向量。中等規模的網站計算26‘000'000網頁的 PageRank值要花費幾小時。還有一些技術細節超出了本文論述的范圍。

2.1.2直覺判斷

PageRank被看作用戶行為的模型。我們假設網上沖浪是隨機的,不斷點擊鏈接,從不返回,最終煩了,另外隨機選一個網頁重新開始沖浪。隨機訪問一個網頁的可能性就是它的PageRank值。制動因子d是隨機訪問一個網頁煩了的可能性,隨機另選一個網頁。對單個網頁或一組網頁,一個重要的變量加入到制動 因子d中。這允許個人可以故意地誤導系統,以得到較高的PageRank值。我們還有其它的PageRank算法。另外的直覺判斷是一個網頁有很多網頁指向它,或者一些PageRank值高的網頁指向它,則這個網頁很重要。

直覺地,在Web中,一個網頁被很多網頁引用,那么這個網頁值得一看。一個網頁被象Yahoo這樣重要的主頁引用即使一次,也值得一看。如果一個網頁的質量不高,或者是死鏈接,象Yahoo這樣的主頁不會鏈向它。PageRank處理了這兩方面因素,并通過網絡鏈接遞歸地傳遞。

2.2鏈接描述文字(Anchor Text)

我們的搜索引擎對鏈接文本進行了特殊的處理。大多數搜索引擎把鏈接文字和它所鏈向的網頁(the page that the link is on)聯系起來。另外,把它和鏈接所指向的網頁聯系起來。這有幾點好處。

第一,通常鏈接描述文字比網頁本身更精確地描述該網頁。

第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和數據庫。有可能使返回的網頁不能被抓到。注意哪些抓不到的網頁將會帶來一些問題。在返回給用戶前檢測不了它們的有效性。這種情況搜索引擎可能返回一個根本不存在的網頁,但是有超級鏈接指向它。然而這種結果可以被挑出來的,所以,此類的問題很少發生。鏈接描述文字是對被鏈向網頁的宣傳,這個思想被用在World Wide Web Worm 中,主要因為它有助于搜索非文本信息,能夠用少量的已下載文檔擴大搜索范圍。

我們大量應用鏈接描述文字,因為它有助于提高搜索結果的質量。有效地利用鏈接 描述文字技術上存在一些困難,因為必須處理大量的數據。現在我們能抓到24‘000'000個網頁,已經檢索到259‘000'000多個鏈接描述文字。

2.3其它特點

除了PageRank和應用鏈接描述文字外,Google還有一些其它特點。

第一,所有hit都有位置信息,所以它可以在搜索中廣泛應用鄰近性(proximity)。
第二,Google跟蹤一些可視化外表細節,例如字號。黑體大號字比其它文字更重要。
第三,知識庫存儲了原始的全文html網頁。

3、有關工作。——Web檢索研究的歷史簡短。

World Wide Web Worm()是最早的搜索引擎之一,后來出現了一些用于學術研究的搜索引擎,現在它們中的大多數被上市公司擁有。與Web的增長和搜索引擎的重要性相比, 有關當今搜索引擎技術的優秀論文相當少。

根據Michael Mauldin(Lycos Inc的首席科學家)) ,“各種各樣的服務(包括Lycos)非常關注這些數據庫的細節。”雖然在搜索引擎的某些特點上做了大量工作。具有代表性的工作有,對現有商業搜索引擎的 結果進行傳遞,或建立小型的個性化的搜索引擎。最后有關信息檢索系統的研究很多,尤其在有組織機構集合(well controlled collections)方面。在下面兩節,我們將討論在信息檢索系統中的哪些領域需要改進以便更好的工作在Web上。

3.1信息檢索

信息檢索系統誕生在幾年前,并發展迅速。然而大多數信息檢索系統研究的對象是小規模的單一的有組織結構的集合,例如科學論文集,或相關主題的新聞故事。實際上,信息檢索的主要基準,the Text Retrieval Conference(),用小規模的、有組織結構的集合作為它們的基準。大型文集基準只有20GB,相比之下,我們抓到的24000000個網頁占 147GB。在TREC上工作良好的系統,在Web上卻不一定產生好的結果。例如,標準向量空間模型企圖返回和查詢請求最相近的文檔,把查詢請求和文檔都看作由出現在它們中的詞匯組成的向量。在Web環境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢詞再加幾個字。例如,查詢“Bill Clinton”,返回的網頁只包含“Bill Clinton Sucks”,這是我們從一個主要搜索引擎中看到的。

網絡上有些爭議,用戶應該更準確地表達他們想查詢什么,在他們的查詢請求中用更多的詞。我們強烈反對 這種觀點。如果用戶提出象“Bill Clinton”這樣的查詢請求,應該得到理想的查詢結果,因為這個主題有許多高質量的信息。象所給的例子,我們認為信息檢索標準需要發展,以便有效地處理Web數據。

3.2有組織結構的集合(Well Controlled Collections)與Web的不同點

Web是完全無組織的異構的大量文檔的集合。Web中的文檔無論內在信息還是隱含信息都存在大量的異構性。例如,文檔內部就用了不同的語言(既有人類語言 又有程序),詞匯(email地址,鏈接,郵政編碼,電話號碼,產品號),類型(文本,HTML,PDF,圖像,聲音),有些甚至是機器創建的文件 (log文件,或數據庫的輸出)。可以從文檔中推斷出來,但并不包含在文檔中的信息稱為隱含信息。隱含信息包括來源的信譽,更新頻率,質量,訪問量和引 用。不但隱含信息的可能來源各種各樣,而且被檢測的信息也大不相同,相差可達好幾個數量級。例如,一個重要主頁的使用量,象Yahoo 每天瀏覽數達到上百萬次,于此相比,無名的歷史文章可能十年才被訪問一次。很明顯,搜索引擎對這兩類信息的處理是不同的。

Web與有組織結構集合之間的另外一個明顯區別是,事實上,向Web上傳信息沒有任何限制。靈活利用這點可以發布任何對搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經成為一個嚴重的問題。這些問題還沒有被傳統的封閉的信息檢索系統所提出來。它關心的是元數據的努力,這在Web 搜索引擎中卻不適用,因為網頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。

4、系統分析(System Anatomy)

首先,我們提供高水平的有關體系結構的討論,然后,詳細描述重要的數據結構,最后,主要應用:抓網頁,索引,搜索將被嚴格地檢查。

4.1Google體系結構概述

這一節,我們將看看整個系統是如何工作的(give a high level),見圖1(圖片在此有缺損,標注者:搜索引擎優化小組_www.myzuro.live)。本節不討論應用和數據結構,在后幾節中討論。為了效率大部分Google是用c或c++實現的,既可以在Solaris也可以在 Linux上運行。Google系統中,抓網頁(下載網頁)是由幾個分布式crawlers完成的。一個URL服務器負責向crawlers提供URL列表。抓來的網頁交給 存儲服務器storeserver。然后,由存儲服務器壓縮網頁并把它們存到知識庫repository中。每個網頁都有一個ID,稱作docID,當新 URL從網頁中分析出時,就被分配一個docID。由索引器和排序器負責建立索引index function。索引器從知識庫中讀取文檔,對其解壓縮和分析。每個文檔被轉換成一組詞的出現情況,稱作命中hits。Hits紀錄了詞,詞在文檔中的 位置,最接近的字號,大小寫。索引器把這些hits分配到一組桶barrel中,產生經過部分排序后的索引。

索引器的另一個重要功能是分析網頁中所有的鏈接,將有關的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息,可以用來判斷每個鏈接鏈出鏈入節點的信息,和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件,并把相對URL轉換成絕對URL,再轉換成docID。為鏈接描述文本編制索引,并與它所 指向的docID關聯起來。同時建立由docID對組成的鏈接數據庫。用于計算所有文檔的PageRank值。用docID分類后的barrels,送給 排序器sorter,再根據wordID進行分類,建立反向索引inverted index。這個操作要恰到好處,以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表,建立反向索引。一個叫DumpLexicon的程序把這個列表和由索引器產生的字典結合在一起,建立一個新的字典,供搜索器使用。

這個搜索器就是利用一個Web服務器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁面等級PageRank來回答用戶的提問。

4.2主要數據結構經過優化的Google數據結構,能夠用較小的代價抓取大量文檔,建立索引和查詢。

雖然近幾年CPU和輸入輸出速率迅速提高。磁盤尋道仍然需要10ms。任何時候Google系統的設計都盡可能地避免磁盤尋道。這對數據結構的設計影響很大。

4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統,用長度是64位的整型數據尋址。

多文件系統之間的空間分配是自動完成的。BigFiles包也處理已分配和未分配文件描述符。由于操縱系統不能滿足我們的需要,BigFiles也支持基本的壓縮選項。

4.2.2知識庫

知識庫包含每個網頁的全部HTML。每個網頁用zlib(見RFC1950)壓縮。壓縮技術的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而 不是壓縮率很高的bzip。知識庫用bzip的壓縮率接近4:1。而用zlib的壓縮率是3:1。文檔一個挨著一個的存儲在知識庫中,前綴是docID,長度,URL,見圖2(圖片在此有缺損,標注者:搜索引擎優化小組_http://www.myzuro.live)。訪問知識庫不需要其它的數據結構,這有助于數據一致性和升級,用其它數據結構重構系統,我們只需要修改知識庫和crawler錯誤列表文件。

4.2.3文件索引

文件索引保存了有關文檔的一些信息。

索引以docID的順序排列,定寬ISAM(Index sequential access mode)。每條記錄包括當前文件狀態,一個指向知識庫的指針,文件校驗和,各種統計表。如果一個文檔已經被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標題。否則指針指向包含這個URL的URL列表。這種設計考慮到簡潔的數據結構,以及在查詢中只需要一個磁盤尋道時間就能夠訪問一條記錄。還有一個文件用于把URL轉換成docID。它是URL校驗和與相應docID的列表,按校驗和排序。要想知道某個URL的docID,需要計算URL的校驗和,然后在校驗和文件中執行二進制查找,找到它的docID。通過對這個文件進行合并,可以把一批URL轉換成對應的docID。

URL分析器用這項技術把URL轉換成docID。這種成批更新的模式是至關重要的,否則每個鏈接都需要一次查詢,假如用一塊磁盤,322‘000'000個鏈接的數據集合將花費一個多月的時間。

4.2.4詞典

詞典有幾種不同的形式。和以前系統的重要不同是,詞典對內存的要求可以在合理的價格內。現在實現的系統,一臺256M內存的機器就可以把詞典裝入到內存中。現在的詞典包含14000000詞匯(雖然一些很少用的詞匯沒有加入到詞典中)。它執行分兩部分—詞匯表(用null分隔的連續串)和指針的哈希表。不同的函數,詞匯表有一些輔助信息,這超出了本文論述的范圍。

4.2.5 hit list

hit list是一篇文檔中所出現的詞的列表,包括位置,字號,大小寫。Hit list占很大空間,用在正向和反向索引中。因此,它的表示形式越有效越好。我們考慮了幾種方案來編碼位置,字號,大小寫—簡單編碼(3個整型數),緊湊 編碼(支持優化分配比特位),哈夫曼編碼。Hit的詳細信息見圖3(圖片在此有缺損,標注者:搜索引擎優化小組_http://www.myzuro.live)。我們的緊湊編碼每個hit用2字節。有兩種類型hit,特殊hit和普通hit。特殊hit包含URL,標題,鏈接描述文字,meta tag。普通hit包含其它每件事。它包括大小寫特征位,字號,12比特用于描述詞在文檔中的位置(所有超過4095的位置標記為4096)。字號采用相對于文檔的其它部分的相對大小表示,占3比特(實際只用7個值,因為111標志是特殊hit)。特殊hit由大小寫特征位,字號位為7表示它是特殊hit,用4比特表示特殊hit的類型,8比特表示位置。對于anchor hit八比特位置位分出4比特用來表示在anchor中的位置,4比特用于表明anchor出現的哈希表hash of the docID。短語查詢是有限的,對某些詞沒有足夠多的anchor。我們希望更新anchor hit的存儲方式,以便解決地址位和docIDhash域位數不足的問題。

因為搜索時,你不會因為文檔的字號比別的文檔大而特殊對待它,所以采用相對字號。 hit表的長度存儲在hit前。為節省空間hit表長度,在正向索引中和wordID結合在一起,在反向索引中和docID結合存儲。這就限制它相應地只占8到5比特(用些技巧,可以從wordID中借8bit)如果大于這些比特所能表示的長度,用溢出碼填充,其后兩字節是真正的長度。

4.2.6正向索引

實際上,正向索引已經部分排序。它被存在一定數量的barrel中(我們用64個barrels)。每個barrel裝著一定范圍的wordID。如果一篇文檔中的詞落到某個barrel,它的docID將被記錄到這個barrel中,緊跟著那些詞(文檔中所有的詞匯,還是落入該barrel中的詞匯)對應的hitlist。這種模式需要稍多些的存儲空間,因為一個docID被用多次,但是它節省了桶數和時間,最后排序器進行索引時降低編碼的復雜度。更進一步的措施是,我們不是存儲docID本身,而是存儲相對于該桶最小的docID的差。用這種方法,未排序的barrel的 docID只需24位,省下8位記錄hitlist長。

4.2.7反向索引

除了反向索引由sorter加工處理之外,它和正向索引包含相同的桶。對每個有效的docID,字典包含一個指向該詞所在桶的指針。它指向由docID和它的相應hitlist組成的doclish,這個doclist代表了所有包含該詞的文檔。 doclist中docID的順序是一個重要的問題。最簡單的解決辦法是用doclish排序。這種方法合并多個詞時很快。

另一個可選方案是用文檔中該詞出現的次數排序。這種方法回答單詞查詢,所用時間微不足道。當多詞查詢時幾乎是從頭開始。并且當用其它Rank算法改進索引時,非常困難。我們綜合了這兩種方法,建立兩組反向索引barrel,一組barrels的hitlist只包含標題和anchor hit,另一組barrel包含全部的hitlist。我們首先查第一組索引桶,看有沒有匹配的項,然后查較大的那組桶。

4.3抓網頁

運行網絡爬行機器人是一項具有挑戰性的任務。執行的性能和可靠性甚至更重要,還有一些社會焦點。網絡爬行是一項非常薄弱的應用,它需要成百上千的web服務器和各種域名服務器的參與,這些服務器不是我們系統所能控制的。

為了覆蓋幾十億的網頁,Google擁有快速的分布式網絡爬行系統。一個URL服務器給若干個網絡爬行機器人(我們采用3個)提供URL列表。URL服務器和網絡爬行機器人都是用Python實現的。每個網絡爬行機器人可以同時打開300個鏈接。抓取網頁必須足夠快。最快時,用4個網絡爬行機器人每秒可以爬行100個網頁,速率達每秒600K。執行的重點是找DNS。每個網絡爬行機器人有它自己的DNS cache,所以,它不必每個網頁都查DNS。

每一百個連接都有幾種不同的狀態:查DNS,連接主機,發送請求,接收回答。

這些因素使網絡爬行機器人成為系統比較復雜的部分。它用異步IO處理事件,若干請求隊列從一個網站到另一個網站不停的抓取網頁。運行一個鏈接到500多萬臺服務器的網頁爬行機器人,產生1千多萬登陸口,導致了大量的Email和電話。因為,網民眾多,總有些人不知道網絡爬行機器人是何物,這是他們看到的第一個網絡爬行機器人。

幾乎每天我們都會收到這樣的Email“哦,你從我們的網站看了太多的網頁,你想干什么?”還有一些人不知道網絡搜索機器人避免協議(the robots exclusion protocol),以為他們的網頁上寫著“版權所有,勿被索引”的字樣就會被保護不被索引,不必說,這樣的話很難被web crawler理解。因為數據量如此之大,還會遇到一些意想不到的事情。

例如,我們的系統曾經企圖抓一個在線游戲,結果抓到了游戲中的大量垃圾信息。解決這個問題很簡單。但是我們下載了幾千萬網頁后才發現了這個問題。因為網頁和服務器的種類繁多,實際上不在大部分Internet上運行它就測試一個網頁爬行機器人是不可能。總是有幾百個隱含的問題發生在整個web的一個網頁上,導致網絡爬行機器人崩潰,或者更糟,導致不可預測的不正確的行為。能夠訪問大部分Internet的系統必須精力充沛并精心測試過。由于象crawler這樣大型復雜的系統總是產生這樣那樣的問題,因此,花費一些資源讀這些 Email,當問題發生時解決它,是有必要的。

4.4Web索引分析

任何運行在整個Web上的分析器必須能夠處理可能包含錯誤的大型集合。范圍從HTML標記到標記之間幾K字節的0,非ASCII字符,幾百層HTML標記的嵌套,各種各樣令人難以想象的錯誤。為了獲得最大的速度,我們沒有采用YACC產生上下文無關文法CFG分析器,而是采用靈活的方式產生詞匯分析器,它自己配有堆棧。分析器的改進大大提高了運行速度,它的精力如此充沛完成了大量工作。把文檔裝入barrel建立索引—分析完一篇文檔,之后把該文檔裝入barrel中,用內存中的hash表—字典,每個詞匯被轉換成一個wordID。當hash表字典中加入新的項時,笨拙地存入文件。一旦詞匯被轉換成wordID,它們在當前文檔的出現就轉換成hitlist,被寫進正向barrel。索引階段并行的主要困難是字典需要共享。

我們采用的方法是,基本字典中有140萬個固定詞匯,不在基本字典中的詞匯寫入日志,而不是共享字典。這種方法多個索引器可以并行工作,最后,一個索引器只需處理一個較小的額外詞匯日志。

排序是為了建立反向索引,排序器讀取每個正向barrel,以wordID排序,建立只有標題anchor hi t的反向索引barrel和全文反向索引barrel。這個過程一次只處理一個barrel,所以只需要少量暫存空間。排序階段也是并行的,我們簡單地同時運行盡可能多的排序器,不同的排序器處理不同的桶。由于barrel不適合裝入主存,排序器進一步依據wordID和docID把它分成若干籃子,以便適合裝入主存。然后排序器把每個籃子裝入主存進行排序,并把它的內容寫回到短反向barrel和全文反向barrel。

4.5搜索搜索的目標是提供有效的高質量的搜索結果。

多數大型商業搜索引擎好像在效率方面花費了很大力氣。因此我們的研究以搜索質量為重點,相信我們的解決方案也可以用到那些商業系統中。

Google查詢評價過程見圖4(圖片在此有缺損,標注者:搜索引擎優化小組_http://www.myzuro.live)。

1. 分析查詢。
2. 把詞匯轉換成wordID。
3. 在短barrel中查找每個詞匯doclist的開頭。
4. 掃描doclist直到找到一篇匹配所有關鍵詞的文檔。
5. 計算該文檔的rank。
6. 如果我們在短barrel,并且在所有doclist的末尾,開始從全文barrel的doclist的開頭查找每個詞,goto 第四步。
7. 如果不在任何doclist的結尾,返回第四步。
8. 根據rank排序匹配文檔,返回前k個。圖4(圖片在此有缺損,標注者:搜索引擎優化小組_http://www.myzuro.live)。Google查詢評價在有限的響應時間內,一旦找到一定數量的匹配文檔,搜索引擎自動執行步驟8。這意味著,返回的結果是子優化的。我們現在研究其它方法來解決這個問題。過去根據PageRank排序hit,看來能夠改進這種狀況。

4.5.1 Ranking系統

Google比典型搜索引擎保存了更多的web信息。每個hitlish包括位置,字號,大小寫。另外,我們還考慮了鏈接描述文字。Rank綜合所有這些信息是困難的。ranking函數設計依據是沒有某個因素對rank影響重大。

首先,考慮最簡單的情況—單個詞查詢。為了單個詞查詢中一個文檔的 rank,Goole在文檔的hitlist中查找該詞。Google認為每個hit是幾種不同類型(標題,鏈接描述文字anchor,URL,普通大字 號文本,普通小字號文本,……)之一,每種有它自己的類型權重。類型權重建立了一個類型索引向量。Google計算hitlist中每種hit的數量。然后每個hit數轉換成count-weight。Count-weight開始隨hit數線性增加,很快逐漸停止,以至于hit數與此不相關。我們計算 count-weight向量和type-weight向量的標量積作為文檔的IR值。最后IR值結合PageRank作為文檔的最后rank 對于多詞查詢,更復雜些。

現在,多詞hitlist必須同時掃描,以便關鍵詞出現在同一文檔中的權重比分別出現時高。相鄰詞的hit一起匹配。對每個匹配 hit 的集合計算相鄰度。相鄰度基于hit在文檔中的距離,分成10個不同的bin值,范圍從短語匹配到根本不相關。不僅計算每類hit數,而且要計算每種類型 的相鄰度,每個類型相似度對,有一個類型相鄰度權type-prox-weight。Count轉換成count-weight,計算count- weight type-proc-weight的標量積作為IR值。應用某種debug mode所有這些數和矩陣與查詢結果一起顯示出來。這些顯示有助于改進rank系統。

4.5.2反饋

rank函數有很多參數象type-weight和type-prox-weight。指明這些參數的正確值有點黑色藝術black art。為此,我們的搜索引擎有一個用戶反饋機制。值得信任的用戶可以隨意地評價返回的結果。保存反饋。然后,當修改rank函數時,對比以前搜索的rank,我們可以看到修改帶來的的影響。雖然不是十全十美,但是它給出了一些思路,當rank函數改變時對搜索結果的影響。

5、執行和結果搜索結果的質量是搜索引擎最重要的度量標準。

完全用戶評價體系超出了本文的論述范圍,對于大多數搜索,我們的經驗說明Google的搜索結果比那些主要的商業搜索引擎好。作為一個應用PageRank,鏈接描述文字,相鄰度的例子,圖4(圖片在此有缺損,標注者:搜索引擎優化小組_www.myzuro.live)給出了Google搜索bill Clinton的結果。它說明了Google的一些特點。服務器對結果進行聚類。這對過濾結果集合相當有幫助。這個查詢,相當一部分結果來自 whitehouse.gov域,這正是我們所需要的。

現在大多數商業搜索引擎不會返回任何來自whitehouse.gov的結果,這是相當不對的。注意第一個搜索結果沒有標題。因為它不是被抓到的。Google是根據鏈接描述文字決定它是一個好的查詢結果。同樣地,第五個結果是一個Email地址,當然是不可能抓到的。也是鏈接描述文字的結果。所有這些結果質量都很高,最后檢查沒有死鏈接。因為它們中的大部分PageRank值較高。PageRank 百分比用紅色線條表示。沒有結果只含Bill沒有Clinton或只含Clinton沒有Bill。因為詞出現的相近性非常重要。

當然,搜索引擎質量的真實測試,包含廣泛的用戶學習或結果分析,此處篇幅有限,請讀者自己去體驗Google,http://google.stanford.edu/

5.1存儲需求除了搜索質量,Google的設計可以隨著Web規模的增大而有效地增大成本。

一方面有效地利用存儲空間。表1(在此有缺損,標注者:搜索引擎優化小組_www.myzuro.live)列出了一些統計數字的明細表和Google存儲的需求。由于壓縮技術的應用知識庫只需53GB的存儲空間。是所有要存儲數據的三分之一。按當今磁盤價格,知識庫相對于有用的數據來說比較便宜。搜索引擎需要的所有數據的存儲空間大約55GB。大多數查詢請求只需要短反向索引。文件索引應用先進的編碼和壓縮技術,一個高質量的搜索引擎可以 運行在7GB的新PC。

5.2系統執行搜索引擎抓網頁和建立索引的效率非常重要。

Google的主要操作是抓網頁,索引,排序。很難測試抓全部網頁需要多少時間,因為磁盤滿了,域名服務器崩潰,或者其它問題導致系統停止。總的來說,大約需要9天時間下載26000000網頁(包括錯誤)。然而,一旦系統運行順利,速度非常快,下載最后11000000網頁只需要63小時,平均每天4000000網頁,每秒48.5個網頁。索引器和網絡爬行機器人同步運行。索引器比網絡爬行機器人快。因為我們花費了大量時間優化索引器,使它不是瓶頸。這些優化包括批量更新文檔索引,本地磁盤數據結構的安排。索引器每秒處理54個網頁。排序器完全并行,用4臺機器,排序的整個過程大概需要24小時。

5.3搜索執行改進搜索執行不是我們研究的重點。

當前版本的Google可以在1到10秒間回答查詢請求。時間大部分花費在NFS磁盤IO上(由于磁盤普遍比機器慢)。進一步說,Google沒有做任何優化,例如查詢緩沖區,常用詞匯子索引,和其它常用的優化技術。我們傾向于通過分布式,硬件,軟件,和算法的改進來提高Google的速度。我們的目標是每秒能處理幾百個請求。表2(在此有缺損,標注者:搜索引擎優化小組_www.myzuro.live)有幾個現在版本Google響應查詢時間的例子。它們說明IO緩沖區對再次搜索速度的影響。

6、結論

Google設計成可伸縮的搜索引擎。主要目標是在快速發展的World Wide Web上提供高質量的搜索結果。Google應用了一些技術改進搜索質量包括PageRank,鏈接描述文字,相鄰信息。進一步說,Google是一個收集網頁,建立索引,執行搜索請求的完整的體系結構。

6.1未來的工作大型Web搜索引擎是個復雜的系統,還有很多事情要做。

我們直接的目標是提高搜索效率,覆蓋大約100000000個網頁。一些簡單的改進提高了效率包括請求緩沖區,巧妙地分配磁盤空間,子索引。另一個需要研究的領域是更新。我們必須有一個巧妙的算法來決定哪些舊網頁需要重新抓取,哪些新網頁需要被抓取。這個目標已經由實現了。受需求驅動,用代理cache創建搜索數據庫是一個有前途的研究領域。我們計劃加一些簡單的已經被商業搜索引擎支持的特征,例如布爾算術符號,否定,填充。然而,另外一些應用剛剛開始探索,例如相關反饋,聚類(Google現在支持簡單的基于主機名的聚類)。我們還計劃支持用戶上下文(象用戶地址),結果摘要。我們正在擴大鏈接結構和鏈接文本的應用。

簡單的實驗證明,通過增加用戶主頁的權重或書簽,PageRank可以個性化。對于鏈接文本,我們正在試驗用鏈接周圍的文本加入到鏈接文本。Web搜索引擎提供了豐富的研究課題。如此之多以至于我們不能在此一一列舉,因此在不久的將來,我們希望所做的工作不止本節提到的。

6.2高質量搜索當今Web搜索引擎用戶所面臨的最大問題是搜索結果的質量。

結果常常是好笑的,并且超出用戶的眼界,他們常常灰心喪氣浪費了寶貴的時間。例如,一個最流行的商業搜索引擎搜索“Bill Clillton”的結果是the Bill Clinton Joke of the Day: April 14, 1997。Google的設計目標是隨著Web的快速發展提供高質量的搜索結果,容易找到信息。為此,Google大量應用超文本信息包括鏈接結構和鏈接文本。

Google還用到了相鄰性和字號信息。評價搜索引擎是困難的,我們主觀地發現Google的搜索質量比當今商業搜索引擎高。通過PageRank分析鏈接結構使 Google能夠評價網頁的質量。用鏈接文本描述鏈接所指向的網頁有助于搜索引擎返回相關的結果(某種程度上提高了質量)。最后,利用相鄰性信息大大提高了很多搜索的相關性。

6.3可升級的體系結構除了搜索質量,Google設計成可升級的。

空間和時間必須高效,處理整個Web時固定的幾個因素非常重要。實現Google系統,CPU、訪存、內存容量、磁盤尋道時間、磁盤吞吐量、磁盤容量、網 絡IO都是瓶頸。在一些操作中,已經改進的Google克服了一些瓶頸。Google的主要數據結構能夠有效利用存儲空間。進一步,網頁爬行,索引,排序 已經足夠建立大部分web索引,共24000000個網頁,用時不到一星期。我們希望能在一個月內建立100000000網頁的索引。

6.4研究工具

Google不僅是高質量的搜索引擎,它還是研究工具。

Google搜集的數據已經用在許多其它論文中,提交給學術會議和許多其它方式。最近的研究,例如,提出了Web查詢的局限性,不需要網絡就可以回答。這說明Google不僅是重要的研究工具,而且必不可少,應用廣泛。我們希望Google是全世界 研究者的資源,帶動搜索引擎技術的更新換代。

7、致謝

Scott Hassan and Alan Steremberg評價了Google的改進。他們的才智無可替代,作者由衷地感謝他們。感謝Hector Garcia-Molina, Rajeev Motwani, Jeff Ullman, and Terry Winograd和全部WebBase開發組的支持和富有深刻見解的討論。

最后感謝IBM,Intel,Sun和投資者的慷慨支持,為我們提供設備。這里所描述的研究是Stanford綜合數字圖書館計劃的一部分,由國家科學自然基金支持,合作協議號IRI-9411306。DARPA ,NASA,Interva研究,Stanford數字圖書館計劃的工業合作伙伴也為這項合作協議提供了資金。參考文獻(在此有缺損,標注者:搜索引擎優化小組_http://www.myzuro.live)

8、Google的設計目標是可升級到10億網頁。我們的磁盤和機器大概能處理這么多網頁。

系統各個部分耗費的總時間是并行的和線性的。包括網頁爬行機器人,索引器和排序器。擴展后我們認為大多數數據結構運行良好。然而10億網頁接近所有常用操作系統的極限(我們目前運行在Solaris和Linux上)。包括主存地址,開放文件描述符的數量,網絡socket和帶寬,以及其它因素。我們認為當網頁數量大大超過10億網頁時,會大大增加系統復雜性。

9、集中式索引體系的可升級性隨著計算機性能的提高,海量文本索引的成本比較公平。

當然帶寬需求高的其它應用如視頻,越來越普遍。但是,與多媒體例如視頻相比,文本產品的成本低,因此文本仍然普遍。


附:(內容或原圖有缺損,標注者:搜索引擎優化小組_http://www.myzuro.live)

圖2 Google系統的工作流程圖

(原圖來自Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual. Web Search Engine, 1998.http://www-db.stanford.edu/%7Ebackrub/Google.html,在此,圖片缺損。標注者:搜索引擎優化小組_http://www.myzuro.live)

①Google使用高速的分布式爬行器(Crawler)系統中的漫游遍歷器(Googlebot)定時地遍歷網頁,將遍歷到的網頁送到存儲服務器(Store Server)中。

②存儲服務器使用zlib格式壓縮軟件將這些網頁進行無損壓縮處理后存入數據庫Repository中。Repository獲得了每個網頁的完全 Html代碼后,對其壓縮后的網頁及URL進行分析,記錄下網頁長度、URL、URL長度和網頁內容,并賦予每個網頁一個文檔號(docID),以便當系 統出現故障的時候,可以及時完整地進行網頁的數據恢復。

③索引器(Indexer)從Repository中讀取數據,以后做以下四步工作:

④(a)將讀取的數據解壓縮后進行分析,它將網頁中每個有意義的詞進行統計后,轉化為關鍵詞(wordID)的若干索引項(Hits),生成索引項列表, 該列表包括關鍵詞、關鍵詞的位置、關鍵詞的大小和大小寫狀態等。索引項列表被存入到數據桶(Barrels)中,并生成以文檔號(docID)部分排序的 順排檔索引。

索引項根據其重要程度分為兩種:當索引項中的關鍵詞出現在URL、標題、錨文本(Anchor Text)和標簽中時,表示該索引項比較重要,稱為特殊索引項(Fancy Hits);其余情況則稱為普通索引項(Plain Hits)。在系統中每個Hit用兩個字節(byte)存儲結構表示:特殊索引項用1位(bit)表示大小寫,用二進制代碼111(占3位)表示是特殊索 引項,其余12位有4位表示特殊索引項的類型(即hit是出現在URL、標題、鏈接結點還是標簽中),剩下8位表示hit在網頁中的具體位置;普通索引項 是用1位表示大小寫,3位表示字體大小,其余12位表示在網頁中的具體位置。

順排檔索引和Hit的存儲結構如圖3,(圖片缺損。標注者:搜索引擎優化小組_http://www.myzuro.live)所示。

圖3 順排檔索引和Hit的存儲結構

值得注意的是,當特殊索引項來自Anchor Text時,特殊索引項用來表示位置的信息(8位)將分為兩部分:4位表示Anchor Text出現的具體位置,另4位則用來與表示Anchor Text所鏈接網頁的docID相連接,這個docID是由URL Resolver經過轉化存入順排檔索引的。

(b)索引器除了對網頁中有意義的詞進行分析外,還分析網頁的所有超文本鏈接,將其Anchor Text、URL指向等關鍵信息存入到Anchor文檔庫中。

(c)索引器生成一個索引詞表(Lexicon),它包括兩個部分:關鍵詞的列表和指針列表,用于倒排檔文檔相連接(如圖3所示),(圖片缺損。標注者:搜索引擎優化小組_http://www.myzuro.live)。

(d)索引器還將分析過的網頁編排成一個與Repository相連接的文檔索引(Document Index),并記錄下網頁的URL和標題,以便可以準確查找出在Repository中存儲的原網頁內容。而且把沒有分析的網頁傳給URL Server,以便在下一次工作流程中進行索引分析。

⑤URL分析器(URL Resolver)讀取Anchor文檔中的信息,然后做⑥中的工作。

⑥(a)將其錨文本(Anchor Text)所指向的URL轉換成網頁的docID;(b)將該docID與原網頁的docID形成“鏈接對”,存入Link數據庫中;(c)將 Anchor Text指向的網頁的docID與順排檔特殊索引項Anchor Hits相連接。

⑦數據庫Link記錄了網頁的鏈接關系,用來計算網頁的PageRank值。

⑧文檔索引(Document Index)把沒有進行索引分析的網頁傳遞給URL Server,URL Server則向Crawler提供待遍歷的URL,這樣,這些未被索引的網頁在下一次工作流程中將被索引分析。

⑨排序器(Sorter)對數據桶(Barrels)的順排檔索引重新進行排序,生成以關鍵詞(wordID)為索引的倒排檔索引。倒排檔索引結構如圖4所示:

圖4 倒排檔索引結構

⑩將生成的倒排檔索引與先前由索引器產生的索引詞表(Lexicon)相連接產生一個新的索引詞表供搜索器(Searcher)使用。搜索器的功能是由網 頁服務器實現的,根據新產生的索引詞表結合上述的文檔索引(Document Index)和Link數據庫計算的網頁PageRank值來匹配檢索。

在執行檢索時,Google通常遵循以下步驟(以下所指的是單個檢索詞的情況):

(1)將檢索詞轉化成相應的wordID;

(2)利用Lexicon,檢索出包含該wordID的網頁的docID;

(3)根據與Lexicon相連的倒排檔索引,分析各網頁中的相關索引項的情況,計算各網頁和檢索詞的匹配程度,必要時調用順排檔索引;

(4)根據各網頁的匹配程度,結合根據Link產生的相應網頁的PageRank情況,對檢索結果進行排序;

(5)調用Document Index中的docID及其相應的URL,將排序結果生成檢索結果的最終列表,提供給檢索用戶。

用戶檢索包含多個檢索詞的情況與以上單個檢索詞的情況類似:先做單個檢索詞的檢索,然后根據檢索式中檢索符號的要求進行必要的布爾操作或其他操作。

 

文章加注:銀泓電子商務營銷導向機構(http://e.yinhong.sh.cn)   原文(在此有刪節)譯者:不詳
搜索引擎優化小組(http://www.myzuro.live/

]]>
網站營運基礎知識http://www.myzuro.live/post/124.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=124http://www.myzuro.live/cmd.asp?act=tb&id=124&key=7fd3337f
百度搜索引擎的收錄習性e@yinhong.sh.cn (admin)http://www.myzuro.live/post/121.htmlFri, 09 Oct 2009 01:58:20 +0800http://www.myzuro.live/post/121.html以下,也不知道是猴年馬月的文章,覺得不錯,并依然具有參考借鑒的作用,于是稍稍潤色,放在這里。全文如下:

首先我們可以回顧一下搜索引擎百度使用的技術。搜索引擎百度的技術有三點。如下。

一、一種互聯網上鏡像和準鏡像網站的識別方法。這個方法解決了搜索引擎對雷同信息的重復獲取,節省網絡資源和本地資源、提高系統服務的質量和效率。

二、一種基于詞匯的計算機索引和檢索方法。對一段連續的文字信息,在經過詞匯分析處理后,通過添加隱形詞匯的手段,實現對基于詞匯索引和檢索系統的檢索質量提升,使用戶獲得更加準確的檢索結果。

三、一種使用快照的方式實現對網上信息進行記錄和分析的方法。該方法是通過對互聯網上一個特定信息,多次進行快照的方式,將信息當時的狀態進行保留。并通過對一系列快照信息的分析,得到有效數據,方便地得到網上信息的變動情況。

百度既然是全球最大的中文搜索引擎,對中文網頁的搜索技術在某種程度上領先Google自然是理所當然的。但是,百度與Google除了存在著某些方面的相同或相似之外,卻又有著自己獨特的特點。如:

百度比較重視第一印象

網站給百度的第一印象比較重要,相對Google,百度搜索引擎的人為參與度較高,也就是說:在某些層面上可能由人來決定是否收錄網頁,而不是由機器來決定。所以,網站在登錄百度搜索引擎之前,最好把內容做得豐富一點,原創內容多一點,網頁關鍵詞與內容的相關度高一點,這樣才能給百度較好的初次印象。

百度對網頁的更新較敏感

百度對網頁的更新,相對Google而言更加敏感,可能這與百度的本土性格有關。百度搜索引擎每周更新,網頁視重要性有不同的更新率,頻率在幾天至一月之間。所以,在百度的搜索結果中基本上都標明了收錄時間。

百度重視首頁
   
百度對首頁的重視程度要比Google高得多,這與上面提到的“較重視第一次收錄印象”一脈相承。百度在顯示搜索結果時也常常把網站首頁顯示出來,但不具體到某個內容頁(當其認為不夠重要時),相對來說,這在給“用戶的體驗”上打了折扣,但增加了“百度快照”的用戶量。

百度更重視絕對地址的鏈接

百度在收錄網頁時,比較重視絕對地址的收錄。百度提供的網頁快照功能,也沒有解析相對地址的絕對路徑,不知這是百度技術的疏忽還是其偏好的一大體現。

百度很重視收錄日期
     
百度對網頁的收錄日期非常看重,也是其搜索結果排名的參考點。被百度收錄得越早,排名會較高,百度有時甚至會不考慮相關性地把它認為比較重要的內容放在首位,而當瀏覽者點擊進入后,才會發現這些是早已過時的信息,或者甚至是垃圾信息,這是百度需要改進的技術。

 

搜索引擎優化小組(http://www.myzuro.live
本文根據網絡文章整合,作者、來源不詳。

[搜索引擎百度的網站收錄、清除規則]

]]>
網站營運基礎知識http://www.myzuro.live/post/121.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=121http://www.myzuro.live/cmd.asp?act=tb&id=121&key=91c0272f
DNS輪循及其作用net@yinhong.sh.cn (mocca)http://www.myzuro.live/post/118.htmlWed, 07 Oct 2009 15:11:33 +0800http://www.myzuro.live/post/118.html傳統的DNS解析都是一個域名對應一個IP地址,但通過DNS輪循技術(即:負載平衡技術),就可以做到一個域名對應到多個IP上。這樣做,這個技術究竟有什么作用?如果在感覺到網站由單一的主機主宰開始不堪負載網站日益增長的訪問,采用DNS輪循技術是很不錯的選擇。

DNS輪循將一個域名解析到不同的IP上,這樣能隨機使用其中某一臺主機的技術,該技術可以通過智能調整的方式,將網站服務器難以承受的訪問量分布到不同的服務器上,能減輕網站服務器的壓力,實現負載勻衡。

所以,DNS輪循系統可以根據用戶需求,設置N臺主機作為WEB服務器。目前,越來越多的大型WEB服務器都使用DNS輪循來實現負載均衡,服務的分布規劃也更便捷,具有擴展性好的特點,除了提高網站的穩定性和訪問效率,對于那些有大量數據文件請求的客戶也能得到更快的響應。

假如一個網站的數據使用量長期處于增長階段,當達到服務器資源運行瓶頸狀況下,采用DNS輪循技術只要增加服務器數量就可以平滑升級。
 

 

搜索引擎優化小組(http://www.myzuro.live/
內容提供:上海專業做網站團隊

[域名的功用性和投資價值] [什么是影子域名?]

]]>
網站營運基礎知識http://www.myzuro.live/post/118.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=118http://www.myzuro.live/cmd.asp?act=tb&id=118&key=d91121e0
域名的功用性和投資價值e@yinhong.sh.cn (admin)http://www.myzuro.live/post/95.htmlSat, 15 Aug 2009 12:42:23 +0800http://www.myzuro.live/post/95.html域名具備網上“索引”功能特性,可為企業在互聯網上招攬商機、延伸品牌價值。企業要想步入互聯網,都無法跨越擁有域名這個基礎,因此,域名的存在價值毋庸置疑。 

沽“名”釣“域”,升值無限

到底這些域名有什么魅力,會有那么多人瘋狂地搶注?域名的價值到底有多大?

對于大多數經濟實力有限的普通投資者,“域名”可以說是網絡世界中唯一是他們能涉足的投資品。“域名”雖然屬于“虛擬”的事物,但它的投資價值卻不比現實中的收藏品含金量低,加上其獲取途徑公開、簡捷,并且費用低廉,無亦須投資者財大氣粗。

域名的價值總會不斷地增長,非常值得關注。

域名拍賣,商機無限

矽谷 - BroadBand.com 拍賣一千五百美元,Stocks.com 拍賣三千五百美元,而 Loans.com 排名第一名,拍賣價高達三百萬美元。這些是刊登在 GreatDomain.com 網站上的網域名稱(簡稱域名) 拍賣價格,少則三百美元,多則數百萬美元。

域名拍賣的商機無限,成為創業者開發市場的新目標。隨著域名登記需求增加,這也刺激了域名拍賣網站的興起。

注冊域名也是投資

域名雖然是互聯網最基礎的產物,但它卻也是最稀有的全球性資源。作為一種資源,它具有稀缺的、有價格的屬性。

域名的唯一不可重復的特性以及其獨特的專有性(域名僅屬于該域名登記者,為其專有;具有排他的不相容性)更加營造出需求與供給的不平衡,再加上域名市場為完全競爭的、開放的全球化市場,這使得域名注冊做為一項投資贏利的方式成為現實。

注冊域名 淘金成熱門

熱騰的網絡世界里,最雀躍的還是網上人。我們都知道,每天上網都要或多或少地打開幾個網站的地址,這些上網的地址就是域名,可見域名在網絡中的地位。在今天的網人網事中就有不少這樣明智的網上沖浪客,他們注冊域名的目的,除了為自己做一個主頁,還會儲備不少的域名準備交易。

他們這樣的行為,除了能滿足自已的興趣,說不定還真能淘到幾塊金子。

 

搜索引擎優化小組http://www.myzuro.live
來源:銀泓電子商務營銷導向機構,上海做網站http://net.yinhong.sh.cn團隊

[什么是影子域名?]

]]>
網站營運基礎知識http://www.myzuro.live/post/95.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=95http://www.myzuro.live/cmd.asp?act=tb&id=95&key=06d20616
搜索引擎搜狗對網站作弊行為準則e@yinhong.sh.cn (admin)http://www.myzuro.live/post/89.htmlFri, 26 Jun 2009 16:22:39 +0800http://www.myzuro.live/post/89.html搜索引擎對作弊網站都有自己的評判標準,究竟哪類行為被認為是在作弊?作為網站營運管理者,多了解一些這類“搜索引擎些行為準則”于是很有必要。下面,是搜索引擎搜狗評判一個網站是否作弊的標準,搜索引擎優化小組僅僅在其中做了最基本的整合,建議網站營運管理者多留心,這對營運好網站很有幫助。

搜狗:以下行為都可能被認為是作弊行為。

1、隱藏文本或隱藏鏈接。

在網頁中加入搜索引擎可識別但用戶看不見的文本內容或鏈接。包括使用與背景色相同或十分接近的文本或鏈接文字、超小號文字、文字隱藏層、頁面底部下出現的多余內容、濫用圖片ALT 等;

2、濫用關鍵詞。

在網頁源代碼中大量堆積、重復某些關鍵詞,或者加入與網站內容毫不相關的熱門關鍵詞。

3、惡意互換鏈接。

在網頁中互相建立大量指向對方網站的鏈接。

4、欺騙性重定向、欺騙性更換網頁內容。

故意制造大量鏈接指向某一網址或者使用跳轉域名欺騙用戶進入與搜狗描述不相符的網站。

5、建立大量鏡像網站。

復制網站或網頁的內容并分配以不同域名和服務器,欺騙搜索引擎對同一頁面內容進行多次索引。

6、頁面包含惡意廣告、惡意代碼或惡意插件;或頁面有鏈接指向作弊網站的,可能會被視為作弊網站。

 

搜索引擎優化小組(www.myzuro.live

[SEO為什么要作弊]
[SEO作弊]

]]>
網站營運基礎知識http://www.myzuro.live/post/89.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=89http://www.myzuro.live/cmd.asp?act=tb&id=89&key=ca11ae62
加速提升YAHOO收錄網站網頁的方法e@yinhong.sh.cn (admin)http://www.myzuro.live/post/88.htmlSat, 20 Jun 2009 23:00:22 +0800http://www.myzuro.live/post/88.html希望YAHOO多快好省地幫助收錄網站的頁面?搜索引擎優化小組根據YAHOO的收錄原則,并對其收錄原則做了以下整合,對于某些SEO和網站營運者都應該是值得借鑒的參考資料。

1、提交網站的sitemap,引導YAHOO的蜘蛛來抓取;2、錯誤的robots.txt文件配置會導致YAHOO無法抓取網站頁面;3、YAHOO和所有的搜索引擎一樣喜歡獨特并原創的網站內容;4、要堅持并持久地更新和維護網站。

另外,網站建站一定要避免使用搜索引擎無法識別的文本信息,如:應盡可能地避免過多采用Javascript、Cookie、框架、DHTML或Flash等復雜技術;避免與網站內容無相關性的網站做外鏈,更不要在BBS、blog、留言本等位置留下網站的鏈接,這些都是被搜索引擎YAHOO視為網站針對搜索引擎的作弊行為。

因為,所有欺騙搜索引擎的行為一旦被YAHOO發現,將都會被搜索引擎YAHOO從自己的搜索列里予以刪除。

 

搜索引擎優化小組(www.myzuro.live

[搜索引擎雅虎抓取網站的原理 ]
[雅虎統計啟用新品牌 量子恒道統計上線]
[搜索引擎雅虎于外部鏈接的看法與建議]

]]>
網站營運基礎知識http://www.myzuro.live/post/88.html#commenthttp://www.myzuro.live/http://www.myzuro.live/feed.asp?cmt=88http://www.myzuro.live/cmd.asp?act=tb&id=88&key=448da51d
燃烧吧足球官网