網(wǎng)絡(luò)很發(fā)達 為什么搜索引擎可以搜索到很多東西
如今網(wǎng)絡(luò)越來越發(fā)達了,越來越多的人們把內(nèi)容放在互聯(lián)網(wǎng)上。因此網(wǎng)絡(luò)的內(nèi)容在逐漸的豐富,那么我們?nèi)绾卧谶@些海量的內(nèi)容中獲得需要的信息呢?人們于是便發(fā)明了搜索引擎,可是大家知道為什么搜索引擎可以搜索到那么多東西嗎?下面就小編來給大家解答一下疑惑吧。
一般說來,搜索引擎的工作大概分為三個部分。第一個部分稱為信息抓取。搜索引擎使用被稱為&ld;網(wǎng)絡(luò)爬蟲&rd;的程序來抓取網(wǎng)頁上的所有鏈接。于互聯(lián)網(wǎng)的特性,大多數(shù)eb頁面都可以通過其他頁面的鏈接得到訪問。從論上說,自有限的少數(shù)eb頁面出發(fā),網(wǎng)絡(luò)爬蟲可以訪問絕大多數(shù)的eb網(wǎng)頁。想象一下,我們可以把互聯(lián)網(wǎng)看成一個巨大的蜘蛛網(wǎng),交叉點是eb頁面,交叉點之間的蛛絲是鏈接,爬蟲從一個交叉點出發(fā),沿著蛛絲就可以到達任何一個交叉點。
找到了eb頁面后,搜索引擎會開始它的第二部分工作:建立索引。簡單說來,就是搜索引擎從eb頁面中提取關(guān)鍵字,并把頁面信息甚至是個頁面的內(nèi)容按照一定的規(guī)則保存在自己的數(shù)據(jù)庫里。這樣做的目的是使得信息能夠盡快被找到,如果搜索引擎只是簡單地把頁面無規(guī)律地存放的話,每次檢索都要遍歷所有保存的信息,那就失去了搜索引擎的意義了。舉例來說,如果搜索引擎要為一個介紹動畫片《西游記》的頁面建立索引,那么&ld;孫悟空&rd;、&ld;西游記&rd;、&ld;唐僧&rd;、&ld;吳承恩&rd;等詞一般都會成為該頁面索引的一部分。值得一提的是,于中文的特殊性(英文以詞為單位,詞和詞之間用空格分隔,中文以字為單位,詞和詞之間沒有明顯的分隔),在提取關(guān)鍵字之前,一般還要對頁面進行分詞處。