用Robots.txt來和搜尋機器人打交道

喜歡亂逛的機器人

幾天前的：「主機商客戶資料外洩事件」似乎沒有後續的消息，不過可以確定的是Google在第二天一早就把整個快取網頁中的相關資料都清除了，這個事件反應了兩個不容忽視的事實：

Googlebot是一個很厲害的東西，只要你一不小心就有可能被它挖到不該公開的資料。
由於網管人員的一個小疏失，就可能造成公司的重大損失。

所以只要你有網站，不管是用什麼程式架設的，你就應該好好地管一下Googlebot在你家的行動，它雖然很厲害但是也是很聽話的，只要你好好跟它溝通一下，就不會對你的網站造成危害。

什麼是Googlebot

Google機器人（Googlebot）有好幾種名稱，有人叫它「爬蟲(Crawler)」，也有人叫它「蜘蛛(Spider)」，不過它既不是機器人，也不是爬蟲，更不是蜘蛛，而是Google用來檢索你的網頁的一種「程式」，這個程式會主動到你的網站，然後分析你的網站資料並且將資料傳回到Google的搜尋資料庫中，當有人在Google的搜尋引擎輸入「關鍵字」搜尋時，就是從Googlebot所取回的資料中找出最適合的顯示在搜尋結果頁面(SERP)，所以就你的網站一定要善待它，萬一它把你的網站列為「拒絕往來戶」那可是一件最糟的事。

為了要討好Googlebot，你的部落格最好像高登之前教大家的：「向Google提交Sitemap」的方法提交一份網站地圖如Googlebot作參考，這樣子它才會樂於到你家逛逛。

但是這一隻「怪獸」很喜歡在你家到處亂逛，所以為了要限制Googlebot的行動，Google貼心地提出了「Robots.txt」這樣子的解決方案，讓Googlebot在你家真的就會乖乖聽話，而不再到處惹禍！

Robots.txt的用途

Robots.txt是一個提供給搜尋引擎機器人Bot參考的檔案，這個檔案要放在網站的「根目錄」，一般設定好了就很少動它。你可以在你的電腦編輯這個檔案再上傳到網站就可以了，裡面主要是記載網站檢索的容許和限制項目。

這個協定雖然是Google訂的，但是其他搜尋引擎也大都遵循這一個模式，當然你也可以不設Robots.txt讓搜尋引擎自己找（如果沒有什麼不能見人的資料的話）。

我們就來看一下怎麼設這個Robots.txt檔案。

Robots.txt語法

Robots.txt裡面可以有幾個指令可以用：

User-agent：指定檢索程式的種類。
Allow：允許檢索的項目。
Disallow：禁止檢索的項目。
$：從後面往前的萬用字元，用來指定檔案類型用的。
*：從前面往後的萬用字元，用來指定目錄或檔名用的。
Sitemap：用來指定Sitemap的名稱。

我們來看一下最常見的Robots.txt設定像這樣：

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Allow: /wp-content/uploads

第一行的User-agent是指定對所有的Bot程式都有效

接下來的一連串Disallow就是禁止檢索的目錄，那為為什麼要禁止檢索這些目錄呢？有二個目的：

這些目錄裡在跟你網站內容無關的東西，或是有隱私的資料不希望被檢索，前面所提到的主機商案例應該就是網管人員沒有設該管理後台目錄的禁止檢索。
為了避免相同的網頁被重覆檢索，例如「分類文章」和「彙整文章」等。

最後面的Allow則是允許檢索該目錄，如果有Disallow掉的目錄下面有要允許檢索的就要加Allow來設除外條件。

什麼網站可以設Robots.txt

如果你是放在BSP的話那就免了吧！所有的BSP（包括Blogger）都不讓你上傳檔案，所以就只能看該BSP的網管，因此最好的作法是不要放任何不能曝光的資料在網站上才是上上之策。

如果是自架的網站那就一定可以設Robots.txt，至於怎麼設就請你自己找一下資料了，如果你是用WordPress架站的話，上面的設定值應該就夠用了。

如果覺得還不夠的話，請看一下別人的建議，不過提醒你每一個網站都要針對自己的狀況來設，像我的網站是用WordPress的預設網址結構，就不能有禁止「?」的檢索設定，這樣子所有的文章都檢索不到了！

延伸閱讀

Google網站管理員說明中心：使用 robots.txt 檔案來控制對您網站的存取
cocolike - wordpress架設的選擇權blog：WordPress SEO - robots.txt 詳細說明
Google Webmaster Central Blog：Improving on Robots Exclusion Protocol
Turk Hit Box：Best Robots.txt For WordPress
WordPress Codex：Search Engine Optimization for WordPress

輸入您的信箱訂閱電子報

標籤

# Google # SEO # 搜尋引擎 # 網站架設

27 則留言

海芋

2009 年 01 月 12 日 / 11:48:41 回覆

指一下小錯誤，blogger的用戶應該是可以在google sitemap，產生攔截其它bot的規則才對喔，因為blogger已經幫你上傳好了「robots.txt」了，像我的網站的機器人規則就是在「http://inote.tw/robots.txt」中。 ^^
- 高登
  
  2009 年 01 月 12 日 / 11:59:41 回覆
  
  同樣是Google的當然要自己捧場,但是我的意思是:你自己不能改這個檔案,所以一樣沒得玩,不過真的是不是能改可能還要再確認比較好
  - 海芋
    
    2009 年 01 月 12 日 / 12:29:52 回覆
    
    剛試了一下，高登是對的，blogger目前的確不能修改robots.txt
    
    真的是只可遠觀而不可褻玩焉啊
阿達

2009 年 01 月 12 日 / 18:47:50 回覆

想請問版大
如果頁面本身有設定密碼(需Login才能看到)
這樣Google大神還會爬的到嗎？
- 高登
  
  2009 年 01 月 12 日 / 20:56:03 回覆
  
  你說這一次外洩的網頁會沒有密碼嗎?
  這就是Google恐怖的地方!
  - 路人
    
    2009 年 01 月 13 日 / 03:22:57 回覆
    
    這一次外洩的網頁還真沒有密碼,他們的登入/權限控管機制非常的糟糕,
    只有在管理後台第一個頁面有帳密/IP限制,
    登入後的其他內頁由現有資料推測都是直接把登入後的user_id參數帶在GET的URL內作為登入依據,所以從那些被CACHE到的頁面原始URL裡面全部都有個 user_id=70的參數存在.
    而且誇張的是在頁面裡面的前一筆/後一筆中的url也都把user_id參數直接代進去.
    如果這只是內網使用就算了,可是那些內部的詳細資料頁面基本上都沒作來源IP限制這才糟糕.在曝光之後沒多久就有人從網頁原始碼相關連結中挖出不少可以直接連過去看的頁面.
    簡單總結就是大門有上鎖,可是除了大門以外的四面牆都沒有,只要繞過大門就暢通無阻了..
    - 高登
      
      2009 年 01 月 13 日 / 12:08:49 回覆
      
      以Googlebot的守法程度還被挖到真的是網管的問題,不過有其他的Bot就不一定照Robots.txt的規定爬,因此根本解決之道就是像這種頁面不應該放在公開的伺服器上面
      - 阿達
        
        2009 年 01 月 13 日 / 14:37:46
        
        不好意思
        我還是不太懂
        
        如果第一層有帳號密碼
        那google怎麼進的去？？
      - 高登
        
        2009 年 01 月 13 日 / 14:43:34
        
        To 阿達：在連結的小歪碎碎唸網站有一些可能原因的說明,應該就是那樣子沒錯
成小山。

2009 年 01 月 13 日 / 13:36:47 回覆

很詳細的分析～
不過看過還是不懂，哈哈！
網路的世界果然很難懂阿！ㄎㄎㄎ
- 高登
  
  2009 年 01 月 13 日 / 14:35:03 回覆
  
  這一篇寫太多專業術語了,下次改進!
cctsai

2009 年 01 月 14 日 / 01:34:02 回覆

凡走過...
多少會...
留下痕跡...
風痕影

2009 年 06 月 21 日 / 22:57:19 回覆

根據 http://www.robotstxt.org/robotstxt.html 的說法
路徑裡好像不能用萬用匹配符和正規表達式耶...
所以 * 和 $ 應該都是不能用的
- 風痕影
  
  2009 年 06 月 21 日 / 23:01:56 回覆
  
  啊，補充一下，這兩個東西對 Google 的機器人會是有效的
  但對其他搜尋引擎就不一定了
  這點你附的 Google 文件裡也有說
  - 高登
    
    2009 年 06 月 22 日 / 00:19:30 回覆
    
    我們要提交的對象是Google所以請你看一下延伸閱讀裡面Google官方的說法，不要再道聽途說了！
    至於有的Bot不遵循Robots.txt裡面的指示那是那些不照規矩來的Bot的問題不是robots.txt的問題，只要那些程式居心不良你再怎麼防都沒有用的！
    - 風痕影
      
      2009 年 06 月 22 日 / 11:45:54 回覆
      
      根據 Google 的官方說法，那些用法確實不在標準裡
      不過，剛才也查了 Yahoo! 和 MSN 的文件
      結果他們也有支援...看來我好像白擔心了 XD|||
仔仔

2010 年 06 月 03 日 / 17:05:06 回覆

所以就你的網站一「家」要善待它，

有錯字呢...@_@...
- 高登
  
  2010 年 06 月 03 日 / 17:09:37 回覆
  
  改好了，謝謝！
Kevin

2011 年 02 月 15 日 / 22:18:42 回覆

請問高登哥
我從Google 網站管理員工具中看到
有檢索錯誤(我下面用→代表的是有連結到此錯誤網頁的)
http://kevin-blog.twbbs.org/page/2/
→http://kevin-blog.twbbs.org/?paged=2

但是我親自去這些網頁看卻也沒有發現有連結到這些錯誤頁面的連結
請問高登哥是出了是了?
- 高登
  
  2011 年 02 月 15 日 / 22:27:18 回覆
  
  可能是你有變更固定網址的格式，連到之前舊網址吧？
  如果你的sitemap沒有這個連結，過一陣子錯誤就會消失，不用太在意
  - Kevin
    
    2011 年 02 月 16 日 / 05:43:47 回覆
    
    沒有耶
    我都沒變更過網址的格式
    - Kevin
      
      2011 年 02 月 16 日 / 16:31:10 回覆
      
      可是這個問題已經蠻久了
      有什麼方法可以檢查和解決嗎?
      感謝~
      - 高登
        
        2011 年 02 月 16 日 / 19:06:52
        
        有一些是別人的站連你的無效連結，這你就無計可施了
Kevin

2011 年 02 月 17 日 / 16:22:15 回覆

但是全部都是我自己站的連結阿= =
- 高登
  
  2011 年 02 月 17 日 / 23:12:47 回覆
  
  sitemap自己好好檢查，如果都沒錯誤就沒有你能作的事了，而且那個錯誤也沒那麼重要
JENSEN

2012 年 05 月 01 日 / 17:36:18 回覆

版主您好
我的部落格在google網站管理員工具-檢查網站健康狀態顯示出Some important page is blocked by robots.txt,平常使用也沒有亂改html語法,部落格是在google blogger建立的,想向您請教要如何處理
謝謝
- 高登
  
  2012 年 05 月 01 日 / 18:11:26 回覆
  
  Blogger你沒有robots.txt的權限，但是你可是在網址列輸入你的部落格網址/robots.txt 看到設定
  有問題的話各 Blogger 客服反應
  不過我看到的跟其他的 Blogger 都一樣啊？！

發佈留言取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。