搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。百度和谷歌等是搜索引擎的代表。
全文索引
全文搜索引擎是目前廣泛應(yīng)用的主流搜索引擎,國(guó)外代表有Google,國(guó)內(nèi)則有有名的百度。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主),建立起數(shù)據(jù)庫(kù),并能檢索與用戶
查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。
根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。
在搜索引擎分類部分提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),
蜘蛛搜索引擎
搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)?!×硪环N是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),目前好的辦法是多獲得一些
外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的
網(wǎng)站收錄。
當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。這種引擎的特點(diǎn)是搜全率比較高。