昨天黑龙江十一选五开奖结果

您好,歡迎來到新鳳凰彩票_新鳳凰彩票平臺_鳳凰彩票平臺開戶注冊登錄我要投稿

當前您在:新鳳凰彩票 > 互聯網 > 搜索引擎 >
正文

搜索引擎發展的歷史——從網址簿進化到個人門戶

  如果說有什么發明了互聯網?那一定是搜索引擎,否則互聯網中的信息越多,它本身崩潰得越快,因為人們找到自己需要的信息也就越難,使用體驗也就越差。搜索的早期形態是啥?搜索經歷的多少次變革?未來的搜索引擎將變成怎樣?不妨總結一下搜索引擎發展的歷史,發現其中的脈絡。

  其實,搜索的需求從眾多東西(主要是信息)中尋找自己要的,人類一直都有,只不過在IT技術發展之前,所有信息都沒有數字化,搜索唯一可行的表現形式是紙質的目錄、索引、電話簿。廣域網產生以后,搜索的需求存在,但技術沒有對應的迅速發展,因此互聯網搜索的最早形式是網址簿。具體形式和電話簿、黃頁相似,記錄很多知名網站網址的一本書,大小視專業程度而定。筆者自己就買過一本普通網民適用的,大小薄厚類似一本新華字典,按網站內容的不同分類。

  紙質的有了,網絡版的很快跟上。1994年,楊致遠創建雅虎,并開始人工搜集各類網站的網址,并將它們按一定規律分類、排序,網民可以只記住雅虎的網址,之后通過雅虎進入各個門類的網站,紙質的網址簿立即變得多余。部分互聯網業內人士將雅虎用人工搜集網址并分類呈現的目錄式搜索稱為第一代搜索引擎,也有部分互聯網專家認為雅虎這類做法并不能嚴格稱為搜索引擎,而應算作最早的網址。筆者傾向于將其算作搜索實現形式中的一種,甚至包括網址也是如此。

  但雅虎畢竟只是將紙質目錄搬到了互聯網網頁上,查找和不同人對網站分類的理解都降低了這類搜索的使用效率。于是根據關鍵詞進行自動查找的功能也被應用進搜索引擎,這其實并不難實現,因為根據關鍵詞進行全文檢索的技術甚至早在計算機剛剛被發明的上世紀50年代就已經出現(國內的中文全文檢索技術最早被作為748工程的一部分,于80年代后期基本完成,但被廣泛應用已經是90年代的事了)。

  第一代搜索引擎唯一的問題是,網址仍然由人工收集,效率低、易出錯、不全面。于是互聯網急需一種替代人工收集網址的技術,而說到替代人工,人們必然會聯想到的是機器人,于是第二代搜索引擎所依仗的就是機器人,用程序鑄造、組裝的游走在互聯網中的機器人,現在它被人們熟知的名字是搜索爬蟲或者搜索引擎蜘蛛。事實上,這種技術的出現還早于楊致遠的雅虎,甚至早于萬維網的誕生。

  1990大學學生Alan Emtage發明的Archie。雖然當時World Wide Web還未出現,但網絡中文件傳輸還是相當頻繁的,而且由于大量的文件在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage想到了開發一個可以以文件名查找文件的系統,于是便有了Archie。Archie工作原理與現在的搜索引擎已經很接近,它依靠腳本程序自動搜索網上的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。由于Archie深受用戶歡迎,受其,美國內華達System ComputingServices大學于1993年開發了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網頁。

  現在的主流搜索引擎:谷歌、必應、百度等均采用了搜索爬蟲抓取、下載網頁,以取代人工,這些搜索爬蟲每一定(例如谷歌是28天)進行一次全互聯網的抓取,將所有網頁結果下載至自己的服務器,等待再由人們通過輸入關鍵詞提起搜索申請。

  機器人抓取網頁的工作效率明顯高于人工,再加上用關鍵詞進行檢索,新一代搜索引擎的登場時間理應早于目錄式搜索和網址才對。但問題在于:互聯網中的信息實在太多了,搜索爬蟲拿回來的網頁,人幾乎無法再次進行分類,而僅僅經由關鍵詞進行檢索,人們依然要從一團亂麻中查找自己想要的內容,這個使用體驗還不如直接使用目錄。

  這個問題的解決誕生了現今搜索領域的最強者,也是世界上最偉大的公司之一谷歌。上世紀90年代后期,就在雅虎取得成功,讓人們看到搜索的巨大需求之后,當時在斯坦福大學攻讀理工博士的Larry Page 和 Sergey Brin開發出PageRank算法,用于衡量特定網頁相對于搜索引擎索引中的其他網頁而言的重要程度。這項算法基本可以理解為投票,最重要的部分是計算每個網頁與其他網頁之間鏈接的多少,鏈向某個搜索結果的網頁越多且權重越高,那么這個搜索結果也就越重要。谷歌用這個辦決了搜索結果排序的問題,以此取代了目錄式的分類,也用搜索爬蟲加PageRank的辦法取代了雅虎最早提出的搜索引擎解決方案。部分業內人士把谷歌為代表的這一代搜索引擎稱為第二代搜索引擎,也有人認為這才是真正意義上的搜索引擎,筆者比較支持前一種說法。

  中國的搜索引擎歷史基本是直接從第二代搜索引擎開始的,時間是1999年,百度、中搜等老牌搜索引擎廠商從一開始就采用了搜索爬蟲和排序算法的組合(當時還有3721提供網址服務,但時間與百度、中搜等幾乎重合)。與谷歌、雅虎不同,當時的百度、中搜,都主要為門戶網站提供搜索技術的后臺服務,而沒有自己的呈現網站。直到谷歌和雅虎在初進入中國,百度、中搜以及后來的搜搜、搜狗和再后來的360才開始有了自己的搜索引擎網站。

  歷史似乎到此結束,但以上說到的最晚時間點距現在還有十年之久,搜素引擎在這十年也并非一成不變。

  前面說到的搜索引擎爬蟲加排序算法只能解決現在的網頁搜索功能,目前世界上所有的搜索爬蟲都只能用較長時間(20天以上)實現一次全網抓取,對于更新頻率稍慢的網頁,這個速度是合理的。但對于更新頻率較快的互聯網中的新聞,這個方法就顯得太過笨重。國內部分業內人士認為隨著搜索技術和互聯網速度的不斷增強,這個問題會自然隨之解決,但事實上至今網頁搜索仍未能承擔搜索新聞的工作,現在人們通過專門的新聞搜索技術查找自己想看的新聞。

  國內最早為門戶網站提供新聞搜索技術服務的是中搜,時間是2003年。他們將原來全網抓取網頁內容的搜索爬蟲限定在少數幾百個選定的新聞源網站范圍內,這樣就將看似無際的互聯網大大縮小,全部抓取一次的時間從幾天變成了幾分鐘甚至幾十秒。而一旦新聞源本身出現變動,只需將其加入或剔除自己選定的新聞源范圍即可。這種技術和曾經大熱的RSS閱讀技術有些類似,但后者因為需要信息的源頭符合RSS的格式,所以正在逐漸萎縮,谷歌的RSS閱讀產品Greader就在2013年夏天正式停止了服務。此外新聞搜索的排序規則也略有不同,更加注重時間、相關性、發布等等權重。

  與新聞搜索類似的,搜索特殊類別信息的特殊搜索技術還有圖片搜索、視頻搜索、比價搜索等等。此外,由于互聯網中的信息實在過于龐大,通用搜索很難對所有信息都做到專業、精準、及時,因此一些專門針對某個行業或領域的垂直搜索也應運而生。其原理大多是和新聞搜索類似:縮小搜索爬蟲活動的范圍,再適當修改排序規則。

  中搜對國內乃至整個搜索技術的貢獻還在于,第一次嘗試了搜索的更高級形式個人門戶,2004年,他們發布個人信息門戶瀏覽器,英文縮寫是PIG,因此也被稱為網絡豬。

  之所以把個人門戶稱為搜索的更高級形式,是因為此前的搜索引擎都是被動的等著人們主動輸入關鍵詞提出搜索申請,而能夠讓搜索變被動等待為主動提供服務的方式就是個人門戶。如果搜索始終等待用戶輸入關鍵詞,那么它就始終難以擺脫工具的角色,與目錄、電話簿之間的區別只在形式和效率之間。此外,主動為用戶提供服務還能被更多的關注、使用,獲得更多的廣告收益。因此主動和被動,不僅僅是一個服務形式的問題。

  門戶網站顧名思義,是力求為網民提供最大信息量,解決最多互聯網的“超市”,但前面如果加上個人,主要就在全面之外又加上了精準。似乎整個互聯網中也只有利用關鍵詞進行檢索的搜索能夠提供全面且精準的信息服務。中搜的做法是允許用戶自己訂閱搜索關鍵詞,再組合成一張首頁,所有訂閱關鍵詞的搜索結果都第一時間呈現給剛一打開瀏覽器的網民。

  在此之后谷歌也推出了自己的個人主頁產品igoogle,并且功能更為豐富(增添了天氣、股票等等)。但個人門戶產品并沒有像傳統的搜索引擎那樣獲得成功,至少在桌面互聯網是這樣,“網絡豬”和igoogle都沒有獲得搜索廠商們心目中的理想結果,后者還于2013年冬天和Greader一樣停止了服務。其他力求主動為網民提供搜索服務的嘗試還包括雅虎,他們也允許網民訂閱搜索關鍵詞,之后每天會將搜索結果的更新主動發送至用戶的郵箱中。

  中國國內對搜索的創新還不得不提百度的競價排名機制:渴望宣傳自身的企業按與自己相關的搜索結果的點擊次數付費給搜索引擎廠商,企業的推廣信息出現在搜索結果中,由單次點擊付費高低決定結果的排序(付費高者靠前)。盡管備受業內,但這一機制還是解決了搜索引擎廠商的吃飯問題,因此才能擺脫為其他網站提供后臺服務的角色,同時肇始者獲得的暴利也吸引了更多玩家跟進投入搜索引擎市場,促進了技術、市場的繁榮。

  但以上嘗試都是在第二代搜索引擎的基礎上進行的,無論針對類別、展示形式還是盈利模式。這一代搜索引擎雖然用搜索爬蟲解決了對搜索結果巨量、全面的需求,但僅用關鍵詞和PageRank一類排序方法是無法實現完全精準的。無論英文還是中文,同一個關鍵詞出現多種含義再平常不過,而再好的排序方式也不可能將每個人真正需要的結果都全部放在前幾頁,每個人搜索的結果都可能出現在第一百頁、一千頁甚或一萬頁之后,因為互聯網中的信息實在實在太多了,并且還可能有不斷重復的信息出現。

  對下一代搜索引擎的嘗試已經開始,2011年國內的搜索引擎廠商中搜發布上線第三代搜索引擎平臺,算是第一個打起第三代搜索旗子的。中搜自己是第三代的原因是:區別于第一代純粹用人工收集搜索結果和完全第二代用搜索爬蟲抓取結果,他們的搜索引擎采用人機結合的辦法:即用搜索爬蟲繼續收集網頁,解決搜索結果的量的問題,但用人工將搜索結果進行分類、整理,解決搜索結果的準確。前面筆者曾說過這是個不可能完成的任務,中搜給出的解決辦法是允許每個網民參與到這個過程中,他們將整個搜索,任何人對搜索結果有不同意見,有不同想法都可以提出修改,不同于百度用戶只能接受搜索結果。中搜的搜索結果呈現方式也有所改變,成為了針對某個關鍵詞含義的類似門戶專題的多框頁面(區別于其他搜索引擎的目錄式結構),同一關鍵詞的不同含義分別有完全不同的專題頁面呈現。

  此后國內一大批“第三代搜索”跟風而至,但無論優劣,其搜索結果的收集、呈現方式并未如同中搜,與現有第二代搜索引擎有任何明顯差異,“第三代”未免空穴來風。

  2012年,谷歌也宣布推出知識圖譜,與中搜的呈現方式類似,也具有很強的延展性,將與關鍵詞相關的信息展示在邊條。2013年初百度也作出了類似調整,但這些都是以技術方式實現的,沒有添加人工。谷歌更重要的新一代搜索嘗試還包括將搜索遷移進專門的硬件谷歌眼鏡,雖然目前還不能確定其能否獲得成功,但指明的方向已經清楚:未來的搜索將和人們的生活離得更近,很可能不局限于文字輸入請求和表達結果,也不局限于2維世界。

  不過,對普羅大眾而言,眼下更為現實的嘗試則是移動搜索的種種創新。還是中搜,將第三代搜索遷移到移動端之外,他們又重新操起個人門戶。2013年末,中搜發布中搜搜悅移動個人門戶,其中除搜索、新聞等功能,還添加了網址、應用商店、第三方評價、生活服務等多個搜索在移動端可能實現的主要功能,和之前的個人門戶一樣,中搜搜悅也能夠接受用戶的訂閱,并主動呈現搜索結果的更新,更為主動的是它能夠用移動互聯網的方式推送給用戶。

上一篇:SEO搜索引擎優化——被嚴重低估網絡營銷核心技能
下一篇:云藏搜索——全球首個藏文搜索引擎
本文關鍵詞: ─搜索引擎
新鳳凰彩票_新鳳凰彩票平臺_鳳凰彩票平臺開戶注冊登錄
新鳳凰彩票_新鳳凰彩票平臺_鳳凰彩票平臺開戶注冊登錄是目前國內專業的產經經濟新聞網站,目前開設欄目產業資訊、財經熱點、互聯網、科技新聞等欄目。
聯系我們
Copyright © 2012-2018 新鳳凰彩票_新鳳凰彩票平臺_鳳凰彩票平臺開戶注冊登錄 版權所有
[email protected]
QQ:9056731
地址:北京xxxxx區xxxx路xxxx號
昨天黑龙江十一选五开奖结果