2690

できるだけ検索ロボットから避けるために

できるだけ検索ロボットから避けるために

2010.12.31

ふと、知り合いから「できるだけ検索ロボットから避けるにはどうしたらいいの?」と聞かれ、困ってしまいました。そこで、ネットを調べてまとめてみました。

robots.txt

検索ロボット(クローラ)の拒否とアクセス禁止(2010/12/31現在、キャッシュのみ)に、robots.txtの記述サンプルがありましたので引用します。

User-agent: ia_archiver
Disallow: /
#USA Alexa : alexa.com/

User-agent: Baiduspider
Disallow: /

China Baidu : www.baidu.com, www.baidu.jp

User-agent: BaiduImagespider
Disallow: /

China Baidu : www.baidu.com, www.baidu.jp

User-agent: yodaobot
Disallow: /

China Yodao: www.yodao.com

User-agent: Yeti
Disallow: /

Korea Naver : www.naver.com 29/Mar/2007~

User-agent: NaverBot
Disallow: /

Korea Naver : www.naver.com ~26/Mar/2007?

.htaccessの記述

.htaccessサンプル」さんから引用しました。

AddOutputFilter INCLUDES .shtml .html .htm
#更新2007-8-25

.htaccess閲覧防止

AddHandler cgi-script htaccess

ユーザーエージェントで指定

検索避け支援wikiを参考にしています

SetEnvIfNoCase User-Agent "msnbot" shutout
SetEnvIfNoCase User-Agent "Googlebot" shutout
SetEnvIfNoCase User-Agent "Slurp" shutout
SetEnvIfNoCase User-Agent "Yahoo" shutout
SetEnvIfNoCase User-Agent "Y!J" shutout

SetEnvIf User-Agent "inktomi" shutout
SetEnvIf User-Agent "moget" shutout
SetEnvIf User-Agent "ichiro" shutout
SetEnvIf User-Agent "ia_archiver" shutout
SetEnvIfNoCase User-Agent "MarkAgent" shutout
SetEnvIfNoCase User-Agent "marsflag" shutout
SetEnvIfNoCase User-Agent "spider" shutout
SetEnvIfNoCase User-Agent "Baiduspider" shutout
SetEnvIfNoCase User-Agent "Crawler" shutout
SetEnvIfNoCase User-Agent "Yeti" shutout
SetEnvIf User-Agent "http" shutout

Googleから立入禁止

SetEnvIf Referer "^http://www¥.google¥..*/search" shutout
SetEnvIf Referer "^http://images¥.google¥..*/images" shutout

Yahooから立入禁止

SetEnvIf Referer "^http.search¥.yahoo¥..¥?" shutout

MSNから立入禁止

SetEnvIf Referer "^http://search¥.msn¥..*/results¥.aspx¥?" shutout
SetEnvIf Referer "^http://search¥.live¥..*/results¥.aspx¥?" shutout

百度から立入禁止

SetEnvIf Referer "^http://baidu¥." shutout
SetEnvIf Referer "^http.*¥.baidu¥." shutout

order Allow,Deny
Allow from all
Deny from env=shutout

Google

Deny from 66.249.64.0/19

Yahoo

Deny from 72.30.0.0/16
Deny from 74.6.0.0/16

NAVER

Deny from 220.88.0.0/13
Deny from 61.247.192.0/19

百度

Deny from 202.108.0.0/16
Deny from 60.24.0.0/13
Deny from 122.152.128.0/23
Deny from 202.106.0.0/16
Deny from 221.216.0.0/13
Deny from 61.135.0.0/16
Deny from 203.192.149.0/24

この世に完璧なものなんてないと思いますが、この手の専門の方が調べて公開している情報ですので、何も処置しないより、随分効果のあるものだと思います。
必要なければ削除するだけですが、実行は自己責任にて。