2021-01-26
搜索引擎包括很多種類,比如全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎等。本文研究的谷歌是典型的全文索引搜索引擎。全文索引搜索也是目前廣泛應用的主流搜索引擎,這類搜索引擎是從互聯網抓取各個網站的信息(主要是網頁文字),建立數據庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的順序返回結果。在研究谷歌搜索引擎的工作過程時,我們也可以明白為什么在進行SEO時要特別重視某些因素的優化,其實這些因素都是根據搜索引擎的工作原理而提出來的。
谷歌搜索引擎的工作過程一般可以分為下面的步驟:
1爬行
搜索引擎派出“蜘蛛”在互聯網上跟蹤網頁的鏈接,所謂“蜘蛛”,即spider,或被稱為機器人(bot),是搜索引擎用來爬行和抓取網頁的一種程序,因為這些程序像蜘蛛一樣在網絡間爬來爬去,反反復復,不知疲倦,因此形象地稱這些機器人程序為“蜘蛛”。搜索引擎派出“蜘蛛”從一個鏈接跟蹤另一個鏈接,以極快的速度不間斷地爬行這些鏈接,當然“蜘蛛”的爬行也是遵循一定的規則的,一般有深度優先和廣度優先兩種規則,不管哪種規則,“蜘蛛”都是跟蹤已有的數據庫的網頁中的鏈接,以發現更多的網頁,因此跟蹤網頁的鏈接是搜索引擎發現新網址的最基本的辦法。因此對于網站來說,若是其他網站有指向自己網站的鏈接,即導入鏈接,那么自己的網站被搜索引擎發現的可能性就更大,這也是為什么網站如此重視導入鏈接,普遍對導入鏈接進行優化的原因;有越多的網站指向自己的網站,網站被“蜘蛛”發現的概率越高,被索引的可能性越高;而且若指向自己網站的那些網站質量比較高,那么自己的網站被“蜘蛛”當成高質量網站的可能性也越高,因此企業網站進行SEO優化時非常重視導入鏈接的數量和質量;另外也可以通過提交站點地圖的方式通知“蜘蛛”來索引自己的網站。
抓取和存儲
“蜘蛛”跟蹤鏈接爬行到網頁,并把爬行和抓取的數據存入原始頁面數據庫,其頁面數據與用戶瀏覽器得到的html內容是完全一樣的,“蜘蛛”在抓取頁面的時候也會做一定的重復內容檢測,一旦遇到權重很低的網站上有大量抄襲、復制的內容,可能就會中途放棄對該頁面的爬行,這也是為什么很多網站沒有被搜索引擎收錄的原因。其實“蜘蛛”跟人有相似之處,“蜘蛛”也喜歡新鮮的東西,當“蜘蛛”發現網站內容是原創,跟別的網頁幾乎完全不同,那么“蜘蛛”會特別喜歡這些內容,會快速爬行過來并且抓取到搜索引擎的數據庫中的。
因此,外貿企業進行SEO時必須注意網站內容的原創性,盡量避免復制別人網站的內容,對于一般網站來說,讀者很少會仔細的逐字逐句的看網頁的內容,所以每頁不一定要填充很多內容。但讀者一般很關注網頁的前兩段,因此要重視網頁前兩段內容的寫作。另外盡量將主要的關鍵詞提早在標題、副標題、段落的前部展現給讀者,讀者可以提早關注到該網頁的主要內容,從而決定是否繼續閱讀下去。而在搜索引擎結果頁面,用戶的瀏覽習慣也是F型,人們的眼光普遍關注自然排名的最前面1~3個搜索結果,而對4~10的搜索結果是一帶而過,因此網站排名在搜索結果頁的位置直接決定了網站受關注的程度,這也是為什么眾多企業力圖把自己的網站優化到前三名的原因。