サイト100選 @迅 番外投稿編:robots.txtによるクローラー対策
サイト100選 @迅 番外投稿編:robots.txtによるクローラー対策の紹介
皆さんおはこんちゃです、あつくてだるだる迅犬です( ˘ω˘)
今回は番外編ということで、ウェブの技術的な内容を紹介致します。
[ robots.txtを使用したクローラー対策とは? ]
まず前提知識として知っていなければならないのはクローラーです。クローラーとは、検索エンジンのことです。このクローラーによって皆さんが作ったサイト(画像、PDF等も含める)が回収され、検査されて、検索結果に表示されるようになります。
ということは、テストで、一時的にアップロードしたいサイトがあった場合(たとえば、クライアントワークで制作途中のサイト等)、サイトがクローラーに見つかってしまうと、その時点でサイトが評価されてしまい、後からどれだけSEO的な改善をしても、最初の評価が一番重要なので、検索結果的にどうにもならなくなってしまいます。
そこで登場するのが、robots.txtです。
このrobots.txtを使用すると、クローラー(検索エンジン)に対して、私達が指定したフォルダ(の中のサイト)を回収しにこないでねと、命令することができるのです。
[ 具体的な記述方法 ]
ここから具体的にrobots.txtを設置していきましょう。
1:DreamWeaverを開きましょう。
2:ローカルファイル上にrobots.txtを作成します。
3:robots.txtに以下の記述をします。
User-Agent: *
Disallow: /secrets/
[ 解説 ]
※User-Agentはクローラーの種類を指定します。今回は全てのクローラーに対して命令をするので、*(←全てのクローラーを指定)を記述しています。
※DisallowはUser-Agentで指定したクローラーに対して、検索してほしくないフォルダを指定します。今回はリモートサーバー上のindex.html/のsecretsフォルダの先のパスを検索してほしくないよって指定したいので、index.html(←省略されている)/secrets/と指定しています。
4:ローカルファイル上にsecretsフォルダを作成します。(空のままでOK)
5:robots.txtをPUTしてリモートサーバー上のルートドメインにアップロードします。
6:secretsをPUTしてリモートサーバー上のルートドメインにアップロードします。
7:secretsフォルダの中に空のindex.htmlをローカルで作っておいて、D&D(ドラッグアンドドロップ)でいれておきます。
※空のindex.htmlの中には特に意識しないで大丈夫ですが、こんな感じで記述しておけば大丈夫です。
<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="utf-8">
<title>secretsDECOI</title>
</head>
<body>
</body>
</html>
これで、robots.txtを使用したクローラー対策が終わりました( ˘ω˘) やったね!
あとは、自分が検索されたくないサイトをsecretsフォルダにD&Dでアップロードしていけば大丈夫です( ˘ω˘)b
最終的に以下のような階層構造になっていればOKです:D
[ 最終確認 ]
★ルートドメイン上にsecretsフォルダがある。
★そのsecretsフォルダに空のindex.htmlがある。
★そもそもルートディレクトリ上にindex.htmlが存在する。
★robots.txtがルートディレクトリ上に存在する。
以上があっていれば大丈夫です。繰り返しになりますが、あとはsecretsフォルダに検索されたくないサイトをD&Dでアップロードしていけば、OKです( ˘ω˘)
字が汚くて申し訳ないです(笑 以上になります!
お役に立てれば幸いです( ˘ω˘)