搜索引擎

搜索引擎

一門檢索技術
搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理後,為用戶提供檢索服務,将用戶檢索相關的信息展示給用戶的系統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鍊接列表等。代表性産品有Google、Baidu、sogou、soso、360等。百度和谷歌等是搜索引擎的代表。一個搜索引擎由搜索器、索引器、檢索器和用戶接口四個部分組成。搜索器的功能是在互聯網中漫遊,發現和搜集信息。
    中文名:搜索引擎 外文名: 所屬學科: 英文名:search engine 分類:全文索引、目錄索引等 代表:互動、谷歌等

定義

搜索引擎 (search engine)是指根據一定的策略、運用特定的計算機程序搜集互聯網上信息,在對信息進行組織和處理後,是為用戶提供檢索服務的系統。一個搜索引擎由搜索器、索引器 、檢索器和用戶接口 四個部分組成。搜索器的功能是在互聯網 中漫遊,發現和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔 以及生成文檔庫的索引表。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對将要輸出的結果進行排序,并實現某種用戶相關性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。如果想要搜索引擎為我們服務那就必須要學習SEO,用SEO的技術來優化網站,可以讓你的網站排名上百度首頁,從而獲得更多的流量。那麼該如何學習SEO呢,你可以來這個群,群号前面是235中間是142後面是871,組合起來就可以看到我們的群了,群裡有SEO的大神解答,每天還有SEO的公開課,能幫助你更好的學習,不是真心想要學習的就不要加了。

發展史

互聯網發展早期,以雅虎為代表的網站分類目錄查詢非常流行。網站分類目錄由人工整理維護,精選互聯網上的優秀網站,并簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網站。也有人把這種基于目錄的檢索服務網站稱為搜索引擎,但從嚴格意義上講,它并不是搜索引擎。

1990年,加拿大麥吉爾大學計算機學院的師生開發出Archie。

當時,萬維網還沒有出現,人們通過FTP來共享交流資源。Archie能定期搜集并分析FTP服務器上的文件名信息,提供查找分别在各個FTP主機中的文件。用戶必須輸入精确的文件名進行搜索,Archie告訴用戶哪個FTP服務器能下載該文件。雖然Archie搜集的信息資源不是網頁(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動搜集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜索引擎的鼻祖。

起源

所有搜索引擎的祖先,是1990年由Montreal的McGill UniversITy三名學生(Alan Emtage、Peter Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用文件名查找文件的系統,于是便有了Archie。搜索引擎是SEO中一小部分知識想更深入了解SEO,可以加群:前面叁叁仈,中間六貳柒後面七伍肆,Archie是第一個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精确的文件名搜索,然後Archie會告訴用戶哪一個FTP地址可以下載該文件。由于Archie深受歡迎,受其啟發,Nevada System Computing Services大學于1993年開發了一個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜索工具。

發展(1)

世界上第一個Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯網發展規模。剛開始它隻用來統計互聯網上的服務器數量,後來則發展為也能夠捕獲網址(URL)。

搜索引擎一般由以下三部分組成:

爬行器(機器人、蜘蛛)

索引生成器

查詢檢索器 

發展(2)

Excite的曆史可以上溯到1993年2月,6個Stanford University(斯坦福大學)大學生的想法是分析字詞關系,以對互聯網上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還發布了一個供webmasters在自己網站上使用的搜索軟件版本,後來被叫做Excite for Web Servers。

注:Excite後來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改元搜索引擎 Dogpile

發展(3)

1994年4月,斯坦福大學的兩名博士生,美籍華人楊緻遠和David Filo共同創辦了Yahoo!。随着訪問量和收錄鍊接數的增長,Yahoo目錄開始支持簡單的數據庫搜索。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜索引擎,事實上隻是一個可搜索的目錄。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜索效率明顯提高。

注:Yahoo以後陸續有 Altavista、Inktomi、Google提供搜索引擎服務

Yahoo!--幾乎成為20世紀90年代的因特網的代名詞。 

發展(4)

1995年,一種新的搜索引擎形式出現了——元搜索引擎(Meta Search Engine)。用戶隻需提交一次搜索請求,由元搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,并将從各獨立搜索引擎返回的所有查詢結果,集中起來處理後再返回給用戶。

第一個元搜索引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。

發展(5)

智能檢索的産生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果。

發展(6)

個性化趨勢是搜索引擎的一個未來發展的重要特征和必然趨勢之一。一種方式通過搜索引擎的社區化産品(即對注冊用戶提供服務)的方式來組織個人信息,然後在搜索引擎基礎信息庫的檢索中引入個人因素進行分析,獲得針對個人不同的搜索結果。自2004年10月yahoo推出myweb測試版,到11月a9推出個性化功能,到2005年Googlesearchhistory基本上都沿着一條路子走,分析特定用戶的搜索需求限定的範圍,然後按照用戶需求範圍擴展到互聯網上其他的同類網站給出最相關的結果。另外一種是針對大衆化的,Google個性化搜索引擎,或者yahooMindSet,或者我們都知道的前台聚類的vivisimo。但是無論其中的哪一種實現方式,即Google的主動選擇搜索範圍,還是yahoo(http://blog.sina.com.cn/u/2941211752),vivisimo的在結果中重新組織自己需要的信息,都是一種實驗或者創想,短期内無法成為主流的搜索引擎應用産品。

發展(7)

網格技術(great global grid):由于沒有統一的信息組織标準對網絡信息資源進行加工處理,難以對無序的網絡信息資源進行檢索、交接和共享乃至深層次的開發利用,形成信息孤島。網格技術就是要消除信息孤島實現互聯網上所有資源的全面連通。 

美國全球信息網格

Robot(機器人)一詞對編程者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重複執行某項任務的自動程序。由于專門用于檢索信息的Robot程序像蜘蛛(spider)一樣在網絡間爬來爬去,因此,搜索引擎的Robot程序被稱為spider程序。 

1993年Matthew Gray開發了 World Wide Web Wanderer,這是第一個利用HTML網頁之間的鍊接關系來檢測萬維網規模的“機器人(Robot)”程序。開始,它僅僅用來統計互聯網上的服務器數量,後來也能夠捕獲網址(URL)。 

1994年初,華盛頓大學(University of Washington )的學生Brian Pinkerton開始了他的小項目WebCrawler。1994年4月20日,WebCrawler正式亮相時僅包含來自6000個服務器的内容。WebCrawler是互聯網上第一個支持搜索文件全部文字的全文搜索引擎,在它之前,用戶隻能通過URL和摘要搜索,摘要一般來自人工評論或程序自動取正文的前100個字。

1994年7月,卡内基·梅隆大學(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,創建了Lycos。除了相關性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個在搜索結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜索引擎的數據量。 

1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一樣成為搜索引擎的重要代表。 

1995年,一種新的搜索引擎形式出現了——元搜索引擎(A Meta Search Engine Roundup)。用戶隻需提交一次搜索請求,由元搜索引擎負責轉換處理,提交給多個預先選定的獨立搜索引擎,并将從各獨立搜索引擎返回的所有查詢結果,集中起來處理後再返回給用戶。第一個元搜索引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。 

1995年12月,DEC的正式發布AltaVista。AltaVista是第一個支持自然語言搜索的搜索引擎,第一個實現高級搜索語法的搜索引擎(如AND、 OR、 NOT等)。用戶可以用AltaVista搜索新聞組(Newsgroups)的内容并從互聯網上獲得文章,還可以搜索圖片名稱中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也聲稱是第一個支持用戶自己向網頁索引庫提交或删除URL的搜索引擎,并能在24小時内上線。AltaVista最有趣的新功能之一,是搜索有鍊接指向某個URL的所有網站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜索框區域下放了“tips”以幫助用戶更好的表達搜索式,這些小tip經常更新,這樣,在搜索過幾次以後,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛采用。1997年,AltaVista發布了一個圖形演示系統LiveTopics,幫助用戶從成千上萬的搜索結果中找到想要的。 

1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier創立了Inktomi,1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜索引擎的新内容。HotBot也大量運用cookie儲存用戶的個人搜索喜好設置。 

1997年8月,Northernlight搜索引擎正式現身。它曾是擁有最大數據庫的搜索引擎之一,它沒有Stop Words,它有出色的Current News、7100多出版物組成的Special Collection、良好的高級搜索語法,第一個支持對搜索結果進行簡單的自動分類。 

1998年10月之前,Google隻是斯坦福大學(Stanford University)的一個小項目BackRub。1995年博士生Larry Page開始學習搜索引擎設計,于1997年9月15日注冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認作自己的生日。Google以網頁級别(Pagerank)為基礎,判斷網頁的重要性,使得搜索結果的相關性大大增強。Google公司的奇客(Geek)文化氛圍、不作惡(Don’t be evil)的理念,為Google赢得了極高的口碑和品牌美譽。2006年4月,Google宣布其中文名稱“谷歌”,這是Google第一個在非英語國家起的名字。

Fast(Alltheweb)公司創立于1997年,是挪威科技大學(NTNU)學術研究的副産品。1999年5月,發布了自己的搜索引擎AllTheWeb。Fast創立的目标是做世界上最大和最快的搜索引擎,幾年來庶幾近之。Fast(Alltheweb)的網頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強大的高級搜索功能。(2003年2月25日,Fast的互聯網搜索部門被Overture收購)。 

1996年8月,sohu公司成立,制作中文網站分類目錄,曾有“出門找地圖,上網找搜狐”的美譽。随着互聯網網站的急劇增加,這種人工編輯的分類目錄已經不适應。sohu于2004年8月獨立域名的搜索網站“搜狗”,自稱“第三代搜索引擎”。 

Openfind創立于1998年1月,其技術源自台灣中正大學吳升教授所領導的GAIS實驗室。Openfind起先隻做中文搜索引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年後市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網頁35億,開始進入英文搜索領域。 

2000年1月,兩位北大校友,超鍊分析專利發明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士後)在北京中關村創立了百度(Baidu)公司。2001年8月發布Baidu.com搜索引擎Beta版(此前Baidu隻為其它門戶網站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發布Baidu搜索引擎,專注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、網頁預覽/預覽全部網頁、相關搜索詞、錯别字糾正提示、mp3搜索、Flash搜索。2002年3月閃電計劃(Blitzen Project)開始後,技術升級明顯加快。後推出貼吧、知道、地圖、國學、百科、文檔、視頻、博客等一系列産品,深受網民歡迎。2005年8月5日在納斯達克上市,發行價為USD 27.00,代号為BIDU。開盤價USD 66.00,以USD 122.54收盤,漲幅353.85%,創下了5年以來美國股市上市新股當日漲幅最高紀錄。 

2003年12月23日,原慧聰搜索正式獨立運做,成立了中國搜索。2004年2月,中國搜索發布桌面搜索引擎網絡豬1.0,2006年3月中搜将網絡豬更名為IG(Internet Gateway)。

2004年8月3日,搜狐公司推出搜狗,目的是增強搜狐網的搜索技能,主要經營搜狐公司的搜索業務。在搜索業務的同時,也推出搜狗輸入法、免費郵箱、企業郵箱等業務。2010年8月9日搜狐與阿裡巴巴宣布将分拆搜狗成立獨立公司,引入戰略投資,注資後的搜狗有望成為僅次于百度的中文搜索工具。

2005年6月,新浪正式推出自主研發的搜索引擎“愛問”。2007年起,新浪愛問使用google搜索引擎。

2005年,擁有中國最大IM用戶群資源優勢的騰訊自然不願意放棄搜索業務。騰訊董事長馬化騰曾多次在公開場合闡述其發展戰略:為用戶量身打造滿足各層次需求的在線生活模式,而SOSO網上線正是“在線生活模式”的具體體現。05年12月,騰訊搜索獲得的www.soso.com域名就已可打開,但當時隻是跳轉so.qq.com,此次SOSO網正式成立。

2007年7月1日全面采用網易自主研發的有道搜索技術,并且合并了原來的綜合搜索和網頁搜索。有道網頁搜索、圖片搜索和博客搜索為網易搜索提供服務。其中網頁搜索使用了其自主研發的自然語言處理、分布式存儲及計算技術;圖片搜索首創根據拍攝相機品牌、型号,甚至季節等高級搜索功能;博客搜索相比同類産品具有抓取全面、更新及時的優勢,提供“文章預覽”,“博客檔案”等創新功能。

2012年8月,奇虎360推出綜合搜索業務。

分類

全文索引 

全文搜索引擎是名副其實的搜索引擎,國外代表有Google,國内則有著名的百度搜索。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。

根據搜索結果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎。

目錄索引

目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,隻是按目錄分類的網站鍊接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。

 

元搜索引擎

元搜索引擎(META Search Engine)接受用戶查詢請求後,同時在多個搜索引擎上搜索,并将結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規則将結果重新排列組合,如Vivisimo。 

其他非主流搜索引擎形式:

1、集合式搜索引擎:該搜索引擎類似元搜索引擎,區别在于它并非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若幹搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

2、門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。

3、免費鍊接列表(Free For All Links簡稱FFA):一般隻簡單地滾動鍊接條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。

工作原理

第一步:爬行 

搜索引擎是通過一種特定規律的軟件跟蹤網頁的鍊接,從一個鍊接爬到另外一個鍊接,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為“蜘蛛”也被稱為“機器人”。搜索引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或文件的内容。比如:蜘蛛如果跟蹤鍊接想去爬行一個站點的時候,先要通過robots文件說明,如果robots文件不允許蜘蛛爬行的話,蜘蛛是不能跟蹤鍊接的。當然,蜘蛛也需要理解HTTP返回碼、nofollow标簽、mate标簽等等,所以蜘蛛的爬行是在一定規律和要求下進行的。除了搜索引擎蜘蛛要遵循的一些規則外,還有一些搜索引擎蜘蛛無法做到的事情。比如:要求注冊的站點,FLASH裡的鍊接,圖片裡的鍊接等等。所以,我們了解搜索引擎蜘蛛爬行的時候,不能一味的認為搜索引擎蜘蛛無所不能。 

第二步:抓取存儲 

搜索引擎是通過蜘蛛跟蹤鍊接爬行到網頁,并将爬行的數據存入原始頁面數據庫。其中的頁面數據與用戶遊覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁面是,也做一定的重複内容檢測,一旦遇到權重很低的網站上有大量抄襲、采集或者複制的内容,很可能就不在爬行。這也就是為什麼有一些采集站的數據量很大,但是收錄量很低的原因。不過,大部分的去重工作,還是在預處理階段進行。 

第三步:預處理 

搜索引擎将蜘蛛抓取回來的頁面,進行各種步驟的預處理。 

1、提取文字

現在搜索引擎的排名,還是主要以文字内容為基礎。蜘蛛抓取到數據庫裡的原始頁面文件,需要進行文字提取,去除頁面中的标簽、JS程序、圖片等無法用于排名的内容。當然,搜索引擎也會提取遊覽器中發現顯示的标簽文字、圖片注釋文字、FLASH注釋文字和錨文本文字等。 

2、中文分詞

中文分詞主要是針對中文搜索引擎的特有步驟,英文搜索引擎不存在這個步驟。由于中文字和詞是連載一起的,搜索引擎要分辨哪些字組成的一個詞,所以進行一種分詞步驟。中文分詞一般都是按照兩種方法,一種是詞典匹配;一種是基于統計分析。詞典匹配比較容易理解,是根據以往詞典中出現的詞語匹配。而基于統計分析,主要是分析大量的文字樣本,計算出字與字相鄰出現的頻率,來判斷是不是一個詞。在這裡,我們就比較容易理解關鍵詞裡所說到的完全匹配,基本上是基于詞典匹配,反之則是根據統計分析出來的詞。 

3、去停詞

去停詞主要是去除對内容無關緊要的一些助詞(如中文的:的,地,哈。英文的the.a,an等),使索引數據主題更為突出,減少無謂的計算量。 

4、消除噪音

消除噪音主要是去除一些對頁面主題内容沒什麼貢獻,并且大量重複出現的文字。比如,導航、頁腳、和廣告等 

5、去重

去重處理,其實就是搜索引擎判斷是否原創的一種計算方式。一般情況,搜索引擎運用的方法是對頁面特征關鍵詞計算指紋,也就是說從頁面主題内容中選取最有代表性的一部分關鍵詞,然後計算這些關鍵詞的數字指紋。實驗證明,一般複制的内容即使增加了的、地、哈等文字或者把段落重新組合,都能被搜索引擎輕易判斷出來。這些隻能從推理上來理解,現階段的搜索引擎還不能完全判斷原創内容,因為還會涉及到頁面被抓去的時間的先後,網站的信任度等很多方面的信息。 

6、正向索引

正向索引主要是指搜索引擎在完成了以上5個步驟後,就得到了獨特的、能反應頁面内容的、以詞為單位的内容。搜索引擎就可以分詞程序劃分好的詞,把頁面轉化成關鍵詞組成的集合。搜索引擎索引程序将頁面及關鍵詞形成詞表的結構存儲進索引庫。實際上在搜索引擎索引庫中,關鍵詞也已經轉換成為關鍵詞的ID,這樣的數據庫結構就稱為正向索引。 

7、倒排索引

倒排索引是指搜索引擎将正向索引數據庫重新構造為倒排索引,把文件對應到關鍵詞的影視轉換為關鍵詞到文件的映射。在倒排索引中是以關鍵詞為主,每個關鍵詞對應着一系列文件,這些文件都出現了這個關鍵詞。這樣當用戶搜索某個關鍵詞的時候,排序程序在倒排索引中定位到這個關鍵詞就可以馬上找到所有包含這個關鍵詞的文件。一般用戶在搜索引擎中搜索關鍵詞時,都是運用的倒排索引。 

8、鍊接關系計算

鍊接關系是搜索引擎排名的重要依據。所以,搜索引擎對于大量網頁的導入及導出鍊接、鍊接的權重、相關性等數據進行充分的計算,從而作為某個文件對應關鍵詞的排序依據。 

9、特殊文件處理

對于搜索引擎無法爬行和讀取的flash、圖片、js等文件,暫時無法作為搜索引擎的排名考量指标,僅能以特殊文件的代替文件作為唯一有價值的排序依據。

搜索引擎的預處理階段也是在後台完成的,用戶搜索時感覺不到這個過程。 

第四步:排名 

用戶在搜索框輸入關鍵詞後,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程與用戶直接互動的。但是,由于搜索引擎的數據量龐大,雖然能達到每日都有小的更新,但是一般情況搜索引擎的排名規則都是根據日、周、月階段性不同幅度的更新。

全文搜索引擎

在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址範圍内的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。 

另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間内(2天到數月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站并将有關信息存入數據庫,以備用戶查詢。由于近年來搜索引擎索引規則發生了很大變化,主動提交網址并不保證你的網站能進入搜索引擎數據庫,因此目前最好的辦法是多獲得一些外部鍊接,讓搜索引擎有更多機會找到你并自動将你的網站收錄。 

當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,如果找到與用戶要求内容相符的網站,便采用特殊的算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,鍊接質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序将這些網頁鍊接返回給用戶。 這種引擎它的特點是搜全率比較高。

目錄索引

與全文搜索引擎相比,目錄索引有許多不同之處。 

首先,搜索引擎屬于自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自浏覽你的網站,然後根據一套自定的評判标準甚至編輯人員的主觀印象,決定是否接納你的網站。 

其次,搜索引擎收錄網站時,隻要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。 

此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須将網站放在一個最合适的目錄(Directory)。 

最後,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合适,他可以随時對其進行調整,當然事先是不會和你商量的。 

目錄索引,顧名思義就是将網站分門别類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,隻不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由标題字母的先後順序決定(也有例外)。 

目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo!這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索範圍(注)。在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如國内搜狐、新浪、網易等;而另外一些則默認的是網頁搜索,如Yahoo。這種引擎的特點是找的準确率比較高。

影響

搜索引擎給網吧行業帶來的影響 

百度聯盟可以算是目前唯一一個能夠覆蓋所有網吧并和幾乎所有主流網吧軟件締結合作關系的媒體運營平台。而google方面也不甘示弱,谷歌已經注意到了網吧市場,網吧已經成為了谷歌的新型合作夥伴。網吧的首頁和工具條上都會出現谷歌的标志,相應地會給谷歌帶去流量。谷歌對網吧市場的關注,表明谷歌注意到網吧作為中國互聯網市場的特色之一。由于中國PC擁有量遠落後于美國等西方國家,網吧作為網民主要上網地點的比例逐年在上升,中國網民在網吧上網的比例偏高。據CNNIC 第20次中國互聯網絡發展狀況統計報告顯示,超過1/3(37.2%)的網民表示經常去網吧上網,比2006年12月的32.3%高了5個百分點,第一次超過網民在工作單位上網的比例而成為第二大上網場所。

搜索引擎對網站的影響 

一個網站的命脈就是流量,而網站的流量可以分為兩類。一類是自然流量,一類就是通過搜索引擎而來的流量。如果搜索引擎能夠能多能有效的抓取網站内容,那麼對于網站的好處是不言而喻的。所以,SEO也應運而生了。

在兩大搜索引擎的工作中,百度的工作周期相對來說比google短一些,百度大約在10天左右重新訪問網站一次,Google大約在15天左右重新訪問一次網站。由于一天之内不能遊曆全球所有的網站,如果推廣網站時,能到更多的網站上提交相應的網站信息,也是加快蜘蛛收錄網站内容的重要環節。

作用

搜索引擎是網站建設中針對“用戶使用網站的便利性”所提供的必要功能,同時也是“研究網站用戶行為的一個有效工具”。高效的站内檢索可以讓用戶快速準确地找到目标信息,從而更有效地促進産品/服務的銷售,而且通過對網站訪問者搜索行為的深度分析,對于進一步制定更為有效的網絡營銷策略具有重要價值。 

1、從網絡營銷的環境看,搜索引擎營銷的環境發展為網絡營銷的推動起到舉足輕重的作用。

2、從效果營銷看,很多公司之所以可以應用網絡營銷是利用了搜索引擎營銷。

3、就完整型電子商務概念組成部分來看,網絡營銷是其中最重要的組成部分,是向終端客戶傳遞信息的重要環節。

特點

1、搜索引擎營銷與企業網站密不可分。一般說來,搜索引擎營銷作為網站推廣的常用方法,在沒有建立網站的情況下很少被采用,搜索引擎營銷需要以企業網站為基礎,企業網站設計的專業性對網絡營銷的效果又産生直接影響。

2、搜索引擎傳遞的信息隻發揮向導作用。搜索引擎檢索出來的是網頁信息的索引,一般隻是某個網站/網頁的簡要介紹,或者搜索引擎自動抓取的部分内容,而不是網頁的全部内容,因此這些搜索結果隻能發揮一個“引子”的作用。

3、搜索引擎營銷是用戶主導的網絡營銷方式。沒有哪個企業或網站可以強迫或者誘導用戶的信息檢索行為,使用什麼搜索引擎、通過搜索引擎檢索什麼信息完全是有用戶自己決定的,在搜索結果中點擊哪些網頁也可取決于用戶的判斷。

4、搜索引擎營銷可以實現較高度的定位。網絡營銷的主要特點之一就是可以對用戶行為進行準确分析并實現高程度定位,搜索引擎營銷在用戶定位方面具有更好的功能,尤其是在搜索結果頁面的關鍵詞廣告,完全可以實現與用戶檢索所使用的關鍵詞高度相關,從而提高營銷信息被關注的程度,最終達到增強網絡營銷效果的目的。

 

5、搜索引擎營銷的效果表現為網站訪問量的增加而不是直接營銷。搜索引擎營銷的使命就是獲得訪問量,因此作為網站推廣的主要手段,至于訪問量是否可以最終轉化為收益,不是搜索引擎營銷可以決定的。

6、搜索引擎營銷需要适應網絡服務環境的發展變化。搜索引擎營銷是搜索引擎是搜索引擎服務在營銷中的作業,因此在應用方式上依賴于搜索引擎的工作原理、提供的服務模式等,當搜索引擎檢索方式和服務模式發生變化時,搜索引擎營銷方法也應随之變化。

市場

2012年,我國搜索引擎行業市場規模達到280.7億元,同比增長48.6%。其中,2012第四季度中國搜索引擎市場規模79.5億元,環比增長2.5%,同比增長37.4%。自2012一季度以來,搜索引擎各季度增長率呈現持續緩慢下滑趨勢,但四季度增幅仍高于中國網絡廣告市場整體33.9%的增速。         

從全年來看,客戶數量的拓展、流量變現能力的提升以及搜索引擎廣告良好的投資回報率共同促進了搜索引擎市場的快速增長,推動了市場的健康發展。從季度層面而言,當前搜索市場仍面臨與上一季度相同的問題。除宏觀經濟疲軟影響外,360搜索流量尚未大量變現,還沒有對搜索市場規模增長起到顯著推動作用,同時移動流量的變現困局對搜索市場的成長性造成持續困擾,導緻四季度中國搜索引擎企業收入規模增長相對減緩。          

2012年,百度營收占搜索市場年度總營收的79.5%,繼續占據行業領先地位,優勢明顯。谷歌中國以15.8%的收入份額位居第二。搜狗占比3.0%,搜搜占比1.5%,分别位居第三、四位。         

2012年,中國搜索引擎市場流量結構發生了較為顯著的變化,但在市場營收份額結構層面上,變化尚未顯現。從流量層面來看,奇虎360進入搜索市場之後,短時間内迅速獲取近10%的流量份額。受其影響,百度、谷歌中國及搜搜的流量份額有所下滑。從營收結構來看,由于2012年360搜索商業化進程啟動時間較短,當前尚未将奇虎360營收計入中國搜索引擎企業總營收。進入2013年後,随着商業化進程的推進,360搜索的收入将逐步增長。将奇虎360營收計入搜索市場總營收後,市場格局将發生變化。

搜索建議

細化搜索條件

你給出的搜索條件越具體,搜索引擎返回的結果也會越精确。

比方說你想查找有關電腦冒險遊戲方面的資料,輸入game是無濟于事的。computer game範圍就小一些,當然最好是敲入computer adventure game,返回的結果會精确得多。

此外一些功能詞彙和太常用的名詞,如對英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜索引擎是不支持的。這些詞被稱為停用詞(Stop Words)或過濾詞(Filter Words),在搜索時這些詞都将被搜索引擎忽略

搜索邏輯命令

搜索引擎基本上都支持附加邏輯命令查詢,常用的是“+”号和“-”号,或與之相對應的布爾(Boolean)邏輯命令AND、OR和NOT。用好這些命令符号可以大幅提高我們的搜索精度。

精确匹配搜索

除利用前面提到的邏輯命令來縮小查詢範圍外,還可使用“”引号(注意為英文字符。雖然一些搜索引擎已支持中文标點符号,但顧及到其他引擎,最好養成使用英文字符的習慣)來進行精确匹配查詢(也稱短語搜索)。

特殊搜索命令

标題搜索

多數搜索引擎都支持針對網頁标題的搜索,命令是“title:”,在進行标題搜索時,前面提到的邏輯符号和精确匹配原則同樣适用。

網站搜索

此外我們還可以針對網站進行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot),(soubaike).org

鍊接搜索

在Google和AltaVista中,用戶均可通過“link:”命令來查找某網站的外部導入鍊接(inbound links)。其他一些引擎也有同樣的功能,隻不過命令格式稍有區别。你可以用這個命令來查看是誰以及有多少網站與你做了鍊接。

關鍵詞競争程度判斷

搜索結果數越大,競争越大

Intitle搜索,結果數越多,競争越大

競價結果數越多,競争越大

競争對手情況

内頁排名數量

關鍵詞的挖掘

頭腦風暴

咨問客戶

下拉菜單

相關搜索

競價詞

百度指數

百度關鍵詞工具

金花

追問

飛達魯

八爪魚交叉組合

百度風雲榜

使用方法

簡單查詢

在搜索引擎中輸入關鍵詞,然後點擊“搜索”就行了,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準确,可能包含着許多無用的信息。

   

高級查詢

雙引号(“”)

給要查詢的關鍵詞加上雙引号(半角,以下要加的其它符号同此),可以實現精确的查詢,這種方法要求查詢結果要精确匹配,不包括演變形式。例如在搜索引擎的文字框中輸入“電傳”,它就會返回網頁中有“電傳”這個關鍵字的網址,而不會返回諸如“電話傳真”之類網頁。

使用加号(+)

在關鍵詞的前面使用加号,也就等于告訴搜索引擎該單詞必須出現在搜索結果中的網頁上,例如,在搜索引擎中輸入“+電腦+電話+傳真”就表示要查找的内容必須要同時包含“電腦、電話、傳真”這三個關鍵詞。

使用減号(-)

在關鍵詞的前面使用減号,也就意味着在查詢結果中不能出現該關鍵詞,例如,在搜索引擎中輸入“電視台-中央電視台”,它就表示最後的查詢結果中一定不包含“中央電視台”。

通配符(*和?)

通配符包括星号(*)和問号(?),前者表示匹配的數量不受限制,後者匹配的字符數要受到限制,主要用在英文搜索引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則隻能找到“computer、compater、competer”等單詞。

使用布爾檢索

所謂布爾檢索,是指通過标準的布爾邏輯關系來表達關鍵詞與關鍵詞之間邏輯關系的一種查詢方法,這種查詢方法允許我們輸入多個關鍵詞,各個關鍵詞之間的關系可以用邏輯關系詞來表示。

and,稱為邏輯“與”,用and進行連接,表示它所連接的兩個詞必須同時出現在查詢結果中,例如,輸入“computer and book”,它要求查詢結果中必須同時包含computer和book。

or,稱為邏輯“或”,它表示所連接的兩個關鍵詞中任意一個出現在查詢結果中就可以,例如,輸入“computer or book”,就要求查詢結果中可以隻有computer,或隻有book,或同時包含computer和book。

not,稱為邏輯“非”,它表示所連接的兩個關鍵詞中應從第一個關鍵詞概念中排除第二個關鍵詞,例如輸入“automobile not car”,就要求查詢的結果中包含automobile(汽車),但同時不能包含car(小汽車)。

near,它表示兩個關鍵詞之間的詞距不能超過n個單詞。

在實際的使用過程中,你可以将各種邏輯關系綜合運用,靈活搭配,以便進行更加複雜的查詢。

使用元詞檢索

大多數搜索引擎都支持“元詞”(metawords)功能,依據這類功能用戶把元詞放在關鍵詞的前面,這樣就可以告訴搜索引擎你想要檢索的内容具有哪些明确的特征。例如,你在搜索引擎中輸入“title:清華大學”,就可以查到網頁标題中帶有清華大學的網頁。在鍵入的關鍵詞後加上“domainrg”,就可以查到所有以org為後綴的網站。

其他元詞還包括:image:用于檢索圖片,link:用于檢索鍊接到某個選定網站的頁面,URL:用于檢索地址中帶有某個關鍵詞的網頁。

區分大小寫

這是檢索英文信息時要注意的一個問題,許多英文搜索引擎可以讓用戶選擇是否要求區分關鍵詞的大小寫,這一功能對查詢專有名詞有很大的幫助,例如:Web專指萬維網或環球網,而web則表示蜘蛛網。

特殊搜索命令

intitle:是多數搜索引擎都支持的針對網頁标題的搜索命令。例如,輸入“intitle:家用電器”,表示要搜索标題含有“家用電器”的網頁。

商務模式

在搜索引擎發展早期,多是作為技術提供商為其他網站提供搜索服務,網站付錢給搜索引擎。後來,随着2001年互聯網泡沫的破滅,大多轉向為競價排名方式。

現在搜索引擎的主流商務模式(百度的競價排名、Google的AdWords)都是在搜索結果頁面放置廣告,通過用戶的點擊向廣告主收費。這種模式最早是比爾·格羅斯(Bill Gross)提出的。他于1998年6月創立GoTo公司(後于2001年9月更名為Overture),實施這種模式,取得了很大的成功,并且申請了專利。這種模式有兩個特點,一是點擊付費(Pay Per Click),用戶不點擊則廣告主不用付費。二是競價排序,根據廣告主的付費多少排列結果。 2001年10月,Google推出AdWords,也采用點擊付費和競價的方式。2002年,Overture起訴Google侵犯了其專利。2004年8月,和Yahoo!(Yahoo!于2003年7月收購Overture)達成和解,向後者支付了270萬普通股(合3億美元不到)作為和解費。 

AdSense是Google于2003年推出的一種新的廣告方式。AdSense使各種規模的的第三方網頁發布者進入Google龐大的廣告商網絡。Google在這些第三方網頁放置跟網頁内容相關的廣告,當浏覽者點擊這些廣告時,網頁發布者能獲得收入。AdSense在blogger中很受歡迎。同時,Google武斷地删除一些帳号,引起部分人的不滿。類似的廣告方式,其他搜索引擎也先後推出。雅虎的廣告方式是YPN(Yahoo Publisher Network),YPN 除了可以在網頁上顯示與内容相關的廣告以外,還可以通過在 RSS 訂閱中來顯示廣告。微軟的廣告計劃叫AdCenter。百度也推出主題推廣。

競價排名:競價排名是一種按效果付費的網絡推廣方式,由百度在國内率先推出。企業在購買該項服務後,通過注冊一定數量的關鍵詞,其推廣信息就會率先出現在網民相應的搜索結果中。如企業在百度注冊“電氣設備”這個關鍵詞,當消費者尋找“電氣設備”的信息時,企業就會優先被找到,并且百度按照給企業帶去的潛在客戶訪問數收費。

垂直搜索

垂直搜索引擎為2006年後逐步興起的一類搜索引擎。不同于通用的網頁搜索引擎,垂直搜索專注于特定的搜索領域和搜索需求(例如:機票搜索、旅遊搜索、生活搜索、小說搜索、視頻搜索、購物搜索等等),在其特定的搜索領域有更好的用戶體驗。相比通用搜索動辄數千台檢索服務器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。

集合式搜索

集合式搜索引擎:該搜索引擎類似元搜索引擎,區别在于它并非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若幹搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

門戶搜索

門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。

免費鍊接

免費鍊接列表(Free For All Links簡稱FFA):一般隻簡單地滾動鍊接條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。

搜索引擎可見度

一個網站在搜索引擎自然檢索結果的可見度狀況對于網站是否可以通過搜索引擎獲得用戶至關重要,同樣網站自然檢索的可見度與該網站需要多大程度投放搜索引擎廣告具有密切關系,本研究報告從網站搜索引擎自然檢索狀況的調查揭示搜索引擎關鍵詞推廣的意義。

著名的搜索引擎

目前互聯網時代搜索引擎層出不絕,目前比較有名的搜索引擎有這麼幾個:

百度

百度(Nasdaq簡稱:BIDU)是全球最大的中文搜索引擎,2000年1月由李彥宏、徐勇兩人創立于北京中關村,緻力于向人們提供“簡單,可依賴”的信息獲取方式。“百度”二字源于中國宋朝詞人辛棄疾的《青玉案·元夕》詞句“衆裡尋他千百度”,象征着百度對中文信息檢索技術的執著追求。

360綜合搜索

360綜合搜索屬于元搜索引擎,是搜索引擎的一種,是通過一個統一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合适的(甚至是同時利用若幹個)搜索引擎來實現檢索操作,是對分布于網絡的多種檢索工具的全局控制機制。而360搜索+,屬于全文搜索引擎,是奇虎360公司開發的基于機器學習技術的第三代搜索引擎,具備“自學習、自進化”能力和發現用戶最需要的搜索結果。

258商業搜索

258商業搜索是全球第一商業搜索引擎,為全球商務人士全面提供多語言商業信息搜索服務,實時搜索全球超過6000家B2B平台,包括供求信息、産品信息、公司信息、行業新聞等。

必應

微軟必應(英文名:Bing)是微軟公司于2009年5月28日推出,用以取代Live Search的全新搜索引擎服務。為符合中國用戶使用習慣,Bing中文品牌名為“必應”。作為全球領先的搜索引擎之一,截至2013年5月,必應已成為北美地區第二大搜索引擎,如加上為雅虎提供的搜索技術支持,必應已占據29.3%的市場份額。2013年10月,微軟在中國啟用全新明黃色必應搜索标志并去除Beta标識,這使必應成為繼Windows、Office和Xbox後的微軟品牌第四個重要産品線,也标志着必應已不僅僅是一個搜索引擎,更将深度融入微軟幾乎所有的服務與産品中。

未來展望

随着互聯網的發展,網上可以搜索的網頁變得愈來愈多,而網頁内容的質量亦變得良莠不齊,沒有保證。所以,未來的搜索引擎将會朝着知識型搜索引擎的方向發展,期以為搜索者提供更準确及适用的數據。網上的百科全書如雨後春筍般發展起來;另一方面,亦有不少公司嘗試在搜索方面改進,務求更符合用戶的要求。當中諸如Copernic Agent之類的搜索代理就是其中之一。

相關詞條

相關搜索

其它詞條