本公開前のサイトなどはクロールボットが回ってこないようにするなど、noindexとは違ったアプローチできるrobots.txtについて、簡単にまとめてみました。
目次
基本的にはこれ以外使わない
システムと連携して何かをする場合などは色々な使い方がでてきたりしますが、基本的にWEBデザイナーは下記のような形で使用するのがほとんどだと思います。
User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml
ワードプレスの場合は/wp-adminを読まれないようにしている
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: http://www.example.com/sitemap.xml
ワードプレスの場合はFTP上をのぞいてみてもファイルは存在しません。
URLの後ろに/robots.txtを入れて確認してみてください。
解説
User-agent:
各ボットを指定できます。
User-agent: *
//全体
User-agent: Googlebot
//google
User-agent: bingbot
//bing
普通のGoogle以外に広告の方のボットも制御できたりするみたいですが、私は基本*以外は使用したことがありません。
※指定できるといった知識だけを持っておくだけでいいかもしれません。
Allow:
クロール許可するときに使用します。
Allow: /
//全体を許可
Allow: /sample/
//sampleディレクトリ配下を許可
Disallow:
クロールを拒否するときに使用します。
Disallow: /
//全体を拒否
Disallow: /sample/
//sampleディレクトリ配下を拒否
※bingの場合Disallow:にしていてもまれに勝手にクロールされインデックスされてしまう事もあります。(勝手にクロールされてしまうものの対処方法は別の記事にて紹介させていただこうと考えています。)
Sitemap:
sitemap.xmlの場所を絶対パスで指定します。
Sitemap: http://www.example.com/sitemap.xml
Sitemap: http://www.example.com/wp-sitemap.xml
//複数ある場合はその分記述しましょう
今までrobots.txtに記載していなくても特に問題もなく、検索順位に変動があったわけではないですが、昨今人間にもロボットにも優しいサイトが上位に上りやすくなっている傾向にあると私は考えますので、親切につながるものはやっておいても損はないんじゃないかと考えています。
robots.txtを更新したら必ずテスターで更新しましょう
robots.txtは更新をしてもGoogleなど検索エンジンには過去のデータが残ってしまっている事が多々あります。
そんな時は下記URLより送信・更新を行って更新した旨をGoogleに伝えてあげましょう。
https://www.google.com/webmasters/tools/robots-testing-tool?hl=ja
※これを忘れていつまでもインデックスされないといったこともあるので要注意です。
まとめ
管理画面などシステムがあるサイトや、制作段階のサイトなどでは、全ページnoindexに設定するよりもrobots.txt内でクロール拒否をした方が手間も省けて、本公開時の外し忘れ等も防げるので便利です。
途中にも記載しましたがbingは時々勝手に読み込んでしまって、本公開前に検索に引っかかってしまうなどのクレームを受けている事例も見たことがありますので、その対策等はまた別の記事にまとめたいと思います。