robots.txtは、ロボットが最初にアクセスするファイルです。
このファイルで、ロボットにアクセスさせないファイルの設定などができます。
robots.txtは、トップディレクトリ(inex.htmlがある階層)にアップさせます。
User-agentは、ロボットの指定
Disallowは拒否するディレクトリ・フィアルの指定
となります。
全てのディレクトリ・ファイルをクロールさせる場合は、以下のように記述します。
User-agent: *
Disallow:
Googleのロボットだけ、pearディレクトリとdata/items.xmlをクロール拒否する場合は以下のように記述します。
User-agent: Googlebot Disallow: /pear/ Disallow: /data/items.xml
sitemap.xmlを用意している場合は、以下の記述を追加します。
Sitemap: http://ドメイン/sitemap.xml