サイト100選＠迅番外投稿編：robots.txtによるクローラー対策

サイト100選＠迅番外投稿編：robots.txtによるクローラー対策の紹介

皆さんおはこんちゃです、あつくてだるだる迅犬です( ˘ω˘)

今回は番外編ということで、ウェブの技術的な内容を紹介致します。

[ robots.txtを使用したクローラー対策とは？ ]

まず前提知識として知っていなければならないのはクローラーです。クローラーとは、検索エンジンのことです。このクローラーによって皆さんが作ったサイト（画像、PDF等も含める）が回収され、検査されて、検索結果に表示されるようになります。

ということは、テストで、一時的にアップロードしたいサイトがあった場合（たとえば、クライアントワークで制作途中のサイト等）、サイトがクローラーに見つかってしまうと、その時点でサイトが評価されてしまい、後からどれだけSEO的な改善をしても、最初の評価が一番重要なので、検索結果的にどうにもならなくなってしまいます。

そこで登場するのが、robots.txtです。

このrobots.txtを使用すると、クローラー(検索エンジン)に対して、私達が指定したフォルダ（の中のサイト）を回収しにこないでねと、命令することができるのです。

[ 具体的な記述方法 ]

ここから具体的にrobots.txtを設置していきましょう。

１：DreamWeaverを開きましょう。

２：ローカルファイル上にrobots.txtを作成します。

３：robots.txtに以下の記述をします。

　User-Agent: *

　Disallow: /secrets/

[ 解説 ]

※User-Agentはクローラーの種類を指定します。今回は全てのクローラーに対して命令をするので、＊（←全てのクローラーを指定）を記述しています。

※DisallowはUser-Agentで指定したクローラーに対して、検索してほしくないフォルダを指定します。今回はリモートサーバー上のindex.html/のsecretsフォルダの先のパスを検索してほしくないよって指定したいので、index.html（←省略されている）/secrets/と指定しています。

４：ローカルファイル上にsecretsフォルダを作成します。（空のままでOK）

５：robots.txtをPUTしてリモートサーバー上のルートドメインにアップロードします。

６：secretsをPUTしてリモートサーバー上のルートドメインにアップロードします。

７：secretsフォルダの中に空のindex.htmlをローカルで作っておいて、D&D（ドラッグアンドドロップ）でいれておきます。

※空のindex.htmlの中には特に意識しないで大丈夫ですが、こんな感じで記述しておけば大丈夫です。

<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="utf-8">
<title>secretsDECOI</title>
</head>

これで、robots.txtを使用したクローラー対策が終わりました( ˘ω˘)　やったね！

あとは、自分が検索されたくないサイトをsecretsフォルダにD&Dでアップロードしていけば大丈夫です( ˘ω˘)b

最終的に以下のような階層構造になっていればOKです：D

f:id:zinnteitan:20160707200228j:plain