robots.txtを使って検索エンジンに不要なページをインデックスさせない方法
robots.txtを使って検索エンジンに不要なページをインデックスさせない方法を紹介します。
1.発端
先日エントリーした「当ブログの検索フォームへの検索文字列設定方法について」で、検索用CGIへのアクセスが急増し、「検索スパム」と騒いでしまいましたが、原因は検索エンジンのbotからのものでした。
下記のトラックバックを読んで、私の勘違いであることが分かりました。
で、上記の記事に書かれているrobots.txtの設定を行ったところ、正常な検索も含め250件/日ほどにおさまりました。
この設定は、そもそも検索エンジンに不要なページをインデックスさせないことが目的であることが分かったので、次項で設定内容について紹介します。
2.検索エンジンに不要なページをインデックスさせないようにする
検索エンジンに不要なページをインデックスさせないようにするには、robots.txtに次の内容を設定します。
User-Agent: *
Disallow: /
「User-Agent」はクローラーを指し、「*」ですべてのクローラーを指定します。
「Disallow」は「アクセス拒否」を示します。
当ブログの場合は検索CGIへのアクセスを拒否したいので下記の設定にしました。
User-Agent: *
Disallow: /cgi-bin/koikikukan/mt-search.cgi
robots.txt はドメインに対応するパス(ドキュメントルート)に配置してください。
Disallowには、ドキュメントルートから拒否したいファイルがあるディレクトリまでのパスまたはファイルを指定します。
Posted by yujiro このページの先頭に戻る
- 画像ファイルをBase64形式に変換するスクリプト
- 記事数を減らしてPV(ページビュー)を増やす方法
- Googleの「良質なサイト」を分析してみた
- ウェブサイトをgzip圧縮で高速化する
- CDNでウェブサイトを高速化するためのまとめ
- data URI Schemeを使ってHTTPリクエストを削減する
- Google検索結果の順位を上げる方法
トラックバックURL
コメントする
greeting