一、什么是搜索引擎?
1、所謂搜索引擎,就是根據(jù)用戶需求與一定算法,運(yùn)用特定策略從互聯(lián)網(wǎng)檢索出制定信息反饋給用戶的一門檢索技術(shù)。搜索引擎依托于多種技術(shù),如網(wǎng)絡(luò)爬蟲技術(shù)、檢索排序技術(shù)、網(wǎng)頁處理技術(shù)、大數(shù)據(jù)處理技術(shù)、自然語言處理技術(shù)等,為信息檢索用戶提供快速、高相關(guān)性的信息服務(wù)。搜索引擎技術(shù)的核心模塊一般包括爬蟲、索引、檢索和排序等,同時(shí)可添加其他一系列輔助模塊,以為用戶創(chuàng)造更好的網(wǎng)絡(luò)使用環(huán)境。
2、搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上采集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將檢索的相關(guān)信息展示給用戶的系統(tǒng)。搜索引擎是工作于互聯(lián)網(wǎng)上的一門檢索技術(shù),它旨在提高人們獲取搜集信息的速度,為人們提供更好的網(wǎng)絡(luò)使用環(huán)境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。
3、搜索引擎發(fā)展到今天,基礎(chǔ)架構(gòu)和算法在技術(shù)上都已經(jīng)基本成型和成熟。搜索引擎已經(jīng)發(fā)展成為根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。
二、搜索引擎的原理:
1、爬行
搜索引擎使用一種特定的軟件模式跟蹤頁面之間的鏈接,就像在蜘蛛網(wǎng)上爬行的蜘蛛一樣,從一個(gè)鏈接爬行到另一個(gè)鏈接。搜索引擎蜘蛛通過輸入要求其遵循某些命令或文件的某些規(guī)則進(jìn)行爬網(wǎng)。
2、抓取存儲
搜索引擎通過蜘蛛跟蹤鏈接爬網(wǎng)到網(wǎng)頁,并將爬網(wǎng)數(shù)據(jù)存儲到原始頁面數(shù)據(jù)庫中。頁面數(shù)據(jù)與用戶瀏覽器獲取的HTML完全相同。在搜尋網(wǎng)頁時(shí),搜索引擎蜘蛛還會進(jìn)行一定程度的重復(fù)內(nèi)容檢測,一旦非常低的網(wǎng)站的重量具有大量的抄襲,收集或復(fù)制內(nèi)容,則很可能會停止搜尋。
3、預(yù)處理
搜索引擎將蜘蛛爬回頁面,進(jìn)行各種預(yù)處理步驟。
4、排名
用戶在搜索框中輸入關(guān)鍵字后,排名程序?qū)⒄{(diào)用索引數(shù)據(jù)庫數(shù)據(jù),計(jì)算排名并將其顯示給用戶。排名過程直接與用戶互動(dòng)。但是,由于搜索引擎的數(shù)據(jù)量巨大,雖然可以做到每日進(jìn)行較小的更新,但是一般情況下搜索引擎的排名規(guī)則是根據(jù)日,周,月定期不同范圍的更新。
三、搜索引擎的特點(diǎn)和優(yōu)勢:
1、信息抓取迅速。
在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)生成的信息是如此之大,以至于很難獲得所需的信息資源。借助搜索引擎技術(shù),關(guān)鍵字,高級語法和其他檢索方法可以快速捕獲高度相關(guān)的匹配信息。
2、深入開展信息挖掘。
搜索引擎不僅可以捕獲用戶所需的信息,還可以在一定維度上分析檢索到的信息,以指導(dǎo)用戶對信息的使用和理解。例如,用戶可以根據(jù)檢索到的信息項(xiàng)判斷檢索到的物體的熱量,根據(jù)檢索到的信息分布給予相似度高的相似物體,并利用檢索到的信息智能地為用戶提供解決方案等。
3、多元化和廣泛的搜索內(nèi)容。
隨著搜索引擎技術(shù)的日趨成熟,當(dāng)代搜索引擎技術(shù)可以支持幾乎所有類型的數(shù)據(jù)類型檢索,例如自然語言,智能語言,機(jī)器語言和其他語言。不僅可以檢索視頻,音頻和圖像,還可以檢索人的面部特征,指紋,特定動(dòng)作等。將來,搜索引擎可能會檢索幾乎所有數(shù)據(jù)類型。