サイト100選 @迅

お気に入りのウェブサイトを100個紹介します

サイト100選 @迅 番外投稿編:robots.txtによるクローラー対策

 

サイト100選 @迅 番外投稿編:robots.txtによるクローラー対策の紹介

 

皆さんおはこんちゃです、あつくてだるだる迅犬です( ˘ω˘)

 

今回は番外編ということで、ウェブの技術的な内容を紹介致します。

[ robots.txtを使用したクローラー対策とは? ]

まず前提知識として知っていなければならないのはクローラーです。クローラーとは、検索エンジンのことです。このクローラーによって皆さんが作ったサイト(画像、PDF等も含める)が回収され、検査されて、検索結果に表示されるようになります。

ということは、テストで、一時的にアップロードしたいサイトがあった場合(たとえば、クライアントワークで制作途中のサイト等)、サイトがクローラーに見つかってしまうと、その時点でサイトが評価されてしまい、後からどれだけSEO的な改善をしても、最初の評価が一番重要なので、検索結果的にどうにもならなくなってしまいます。

そこで登場するのが、robots.txtです。

このrobots.txtを使用すると、クローラー(検索エンジン)に対して、私達が指定したフォルダ(の中のサイト)を回収しにこないでねと、命令することができるのです。

 

 

[ 具体的な記述方法 ]

ここから具体的にrobots.txtを設置していきましょう。

1:DreamWeaverを開きましょう。

2:ローカルファイル上にrobots.txtを作成します。

3:robots.txtに以下の記述をします。

 User-Agent: *

 Disallow: /secrets/

 

[ 解説 ]

※User-Agentはクローラーの種類を指定します。今回は全てのクローラーに対して命令をするので、*(←全てのクローラーを指定)を記述しています。

※DisallowはUser-Agentで指定したクローラーに対して、検索してほしくないフォルダを指定します。今回はリモートサーバー上のindex.html/のsecretsフォルダの先のパスを検索してほしくないよって指定したいので、index.html(←省略されている)/secrets/と指定しています。

 

4:ローカルファイル上にsecretsフォルダを作成します。(空のままでOK)

 

5:robots.txtをPUTしてリモートサーバー上のルートドメインにアップロードします。

6:secretsをPUTしてリモートサーバー上のルートドメインにアップロードします。

7:secretsフォルダの中に空のindex.htmlをローカルで作っておいて、D&D(ドラッグアンドドロップ)でいれておきます。

 

※空のindex.htmlの中には特に意識しないで大丈夫ですが、こんな感じで記述しておけば大丈夫です。

<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="utf-8">
<title>secretsDECOI</title>
</head>

<body>
</body>
</html>

 

これで、robots.txtを使用したクローラー対策が終わりました( ˘ω˘) やったね!

あとは、自分が検索されたくないサイトをsecretsフォルダにD&Dでアップロードしていけば大丈夫です( ˘ω˘)b

 

最終的に以下のような階層構造になっていればOKです:D

f:id:zinnteitan:20160707200228j:plain

[ 最終確認 ]

★ルートドメイン上にsecretsフォルダがある。

★そのsecretsフォルダに空のindex.htmlがある。

★そもそもルートディレクトリ上にindex.htmlが存在する。

robots.txtがルートディレクトリ上に存在する。

 

以上があっていれば大丈夫です。繰り返しになりますが、あとはsecretsフォルダに検索されたくないサイトをD&Dでアップロードしていけば、OKです( ˘ω˘)

 

字が汚くて申し訳ないです(笑 以上になります!

お役に立てれば幸いです( ˘ω˘)