2010.12.31
ふと、知り合いから「できるだけ検索ロボットから避けるにはどうしたらいいの?」と聞かれ、困ってしまいました。そこで、ネットを調べてまとめてみました。
検索ロボット(クローラ)の拒否とアクセス禁止(2010/12/31現在、キャッシュのみ)に、robots.txtの記述サンプルがありましたので引用します。
User-agent: ia_archiver
Disallow: /
#USA Alexa : alexa.com/
User-agent: Baiduspider
Disallow: /
China Baidu : www.baidu.com, www.baidu.jp
User-agent: BaiduImagespider
Disallow: /
China Baidu : www.baidu.com, www.baidu.jp
User-agent: yodaobot
Disallow: /
China Yodao: www.yodao.com
User-agent: Yeti
Disallow: /
Korea Naver : www.naver.com 29/Mar/2007~
User-agent: NaverBot
Disallow: /
Korea Naver : www.naver.com ~26/Mar/2007?
「.htaccessサンプル」さんから引用しました。
AddOutputFilter INCLUDES .shtml .html .htm
#更新2007-8-25
.htaccess閲覧防止
AddHandler cgi-script htaccess
ユーザーエージェントで指定
検索避け支援wikiを参考にしています
SetEnvIfNoCase User-Agent "msnbot" shutout
SetEnvIfNoCase User-Agent "Googlebot" shutout
SetEnvIfNoCase User-Agent "Slurp" shutout
SetEnvIfNoCase User-Agent "Yahoo" shutout
SetEnvIfNoCase User-Agent "Y!J" shutout
SetEnvIf User-Agent "inktomi" shutout
SetEnvIf User-Agent "moget" shutout
SetEnvIf User-Agent "ichiro" shutout
SetEnvIf User-Agent "ia_archiver" shutout
SetEnvIfNoCase User-Agent "MarkAgent" shutout
SetEnvIfNoCase User-Agent "marsflag" shutout
SetEnvIfNoCase User-Agent "spider" shutout
SetEnvIfNoCase User-Agent "Baiduspider" shutout
SetEnvIfNoCase User-Agent "Crawler" shutout
SetEnvIfNoCase User-Agent "Yeti" shutout
SetEnvIf User-Agent "http" shutout
Googleから立入禁止
SetEnvIf Referer "^http://www¥.google¥..*/search" shutout
SetEnvIf Referer "^http://images¥.google¥..*/images" shutout
Yahooから立入禁止
SetEnvIf Referer "^http.search¥.yahoo¥..¥?" shutout
MSNから立入禁止
SetEnvIf Referer "^http://search¥.msn¥..*/results¥.aspx¥?" shutout
SetEnvIf Referer "^http://search¥.live¥..*/results¥.aspx¥?" shutout
百度から立入禁止
SetEnvIf Referer "^http://baidu¥." shutout
SetEnvIf Referer "^http.*¥.baidu¥." shutout
order Allow,Deny
Allow from all
Deny from env=shutout
Google
Deny from 66.249.64.0/19
Yahoo
Deny from 72.30.0.0/16
Deny from 74.6.0.0/16
NAVER
Deny from 220.88.0.0/13
Deny from 61.247.192.0/19
百度
Deny from 202.108.0.0/16
Deny from 60.24.0.0/13
Deny from 122.152.128.0/23
Deny from 202.106.0.0/16
Deny from 221.216.0.0/13
Deny from 61.135.0.0/16
Deny from 203.192.149.0/24
この世に完璧なものなんてないと思いますが、この手の専門の方が調べて公開している情報ですので、何も処置しないより、随分効果のあるものだと思います。
必要なければ削除するだけですが、実行は自己責任にて。