當搜尋引擎進來爬我們的網站時,只要是存在的目錄與檔案都會一一檢索;但有時候我們並不希望搜尋引擎檢索網站內某些特定的目錄或檔案,該怎麼讓搜尋引擎知道呢?這時候就必須利用「robots.txt」這支檔案來知會搜尋引擎。
製作出一支robots.txt並不難,它並不是啥特殊檔案,就只是一般的TXT文件檔,你只要新增一個空白檔案然後把檔名改成「robots.txt」就好了。比較重要的是內容該怎麼寫才可以告知搜尋引擎不要檢索特定檔案與目錄。
robots.txt的語法主要包括了「User-Agent:」、「Disallow:」、「Allow:」這三個指令。
「User-Agent:」代表搜尋引擎的名稱。
後面若是寫上「Googlebot」,就表示針對Google搜尋引擎。
若是寫上「Inktomi Slurp」,就表示針對Yahoo搜尋引擎。
若是寫上「bingbot」,就表示針對Bing搜尋引擎。
若是寫上「Baiduspider」,就表示針對百度搜尋引擎。
「Disallow:」則是代表不希望被搜尋引擎檢索的內容。後面若是寫上檔案名稱,就表示叫搜尋引擎不要檢索這支檔案,若是寫上目錄名稱則是不檢索整個目錄,以此類推。
「Allow:」是「Disallow:」的相反,就是允許搜尋引擎檢索,語法和「Disallow:」一樣。
我先貼上一個robots.txt範例,之後再解釋一下這個範例的意思。
User-agent: Googlebot
Disallow: /abc.pdf
Disallow: /private/xyz.docUser-Agent: Inktomi Slurp
Disallow: /cgi-bin/
Disallow: /tmp/User-Agent: bingbot
Disallow: /*.js$
Disallow: /*.css$User-Agent: Baiduspider
Disallow: /
Allow: /open/
第一段的意思是叫Google搜尋引擎不要檢索根目錄下的abc.pdf和private目錄下的xyz.doc這兩支檔案。
第二段的意思是叫Yahoo搜尋引擎不要檢索cgi-bin與tmp這兩個目錄裡的所有檔案。
第三段的意思是叫Bing搜尋引擎不要檢索副檔名是.js與.css這兩種類型的檔案。
第四段的意思是叫百度搜尋引擎不要檢索整個網站,只檢索open這個目錄裡面的檔案就好。
看了範例配合解釋之後,大家應該都知道怎麼寫robots.txt了吧;寫好之後只要把robots.txt丟到網站的根目錄就大功告成囉!