Tips というより開発時に調べた Script 等を忘れないように書き留めた覚え書きです。
最近はここに書き留めておくことも忘れている始末で、我ながら情けなく思う今日この頃です。
ということで、不定期更新というか最近更新していませんが、JavaScript や VBScript などを紹介していきますのでご参考になれば幸いです。

robots.txt でクローラーの動きをコントロールする

robots.txt を置くことで検索エンジンのインデックスに特定のページを登録されないようにしたり、サイトマップファイルをクローラーに教えてあげることが出来ます。
robots.txt 自体は拡張子から分かるとおり単なるテキストファイルなので、誰でも見ることが出来ますので、隠しページなどに使うと却ってみんなにばれてしまいます。
あくまでも検索エンジンのクローラーをコントロールするためだけに使用します。但し、必ず robots.txt に従うとは限りませんので、その点はご承知おき下さい。

詳しくは Search Console ヘルプの robots.txtの概要をご参照下さい。

obots.txt の記述方法

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml
全体説明
  1. 「Googlebot」クローラという名前のユーザー エージェントは、フォルダ「http://example.com/nogooglebot/」やそのサブディレクトリをクロールできません。
  2. 他のユーザー エージェントは、すべてサイト全体にアクセスできます(デフォルトでフルアクセス権限が付与されるため、このルールを省略しても結果は同じになります)。
  3. サイトのサイトマップ ファイルが http://www.example.com/sitemap.xml にあります。

詳しくは Search Console ヘルプの robots.txt ファイルを作成するをご参照下さい。

#
先頭に「#」の付いた行はコメントの意味で無視されます。
覚書等説明を書いておきたい時に利用して下さい。
User-agent
対象の検索ロボットを指定します。
全てのロボットを対象にする場合は * (アスタリスク)にします。
特定のロボットだけを対象にする場合はロボット名を記述します。
例)User-agent: Googlebot
ロボット名はRobots Databaseを参照して下さい。
Disallow
対象ウェブサイト内の特定のファイルパスへのアクセスをブロックします。
インデックスしてほしくないページを指定します。
上記例の「Disallow: /nogooglebot/」は「nogooglebot」フォルダ以下全てを禁止する指定になります。
「Disallow: /nogooglebot/abc.html」とすると、そのページのみブロックする指定になります。
改行で複数指定することが出来ます。
Allow
対象ウェブサイト内の特定のファイルパスへのアクセスを許可します。
基本的には記載不要ですが、上記の例のようにロボットによってブロックと許可を使い分ける時に使用します。
Sitemap
サイトマップファイルがある場合はフルパスで指定します。
※ サイトマップページではなく、検索エンジン用の XML ファイルです。
  「サイトマップメーカー Pro」で作成することが出来ます。

obots.txt の置き場所

必ずルートディレクトリに置きます。
ルートディレクトリというのはトップページと同じ場所になります。
このサイトで言うと「https://www.kanaya440.com/robots.txt」になります。

obots.txt の確認方法

Search Console の robots.txt テスター で確認出来ます。
※ Search Console にサイトを登録する必要があります。

1.「プロパティを選択して下さい」をクリックする
テスターページ

2.調べるサイトを選択する
プロパティを選択

3.エラー数と警告数、及び詳細が確認出来ます。
エラー数と警告数

4.URLを入力して「テスト」ボタンをクリックするときちんとブロックされているか確認出来ます。
ブロック済み
許可済み

ページの先頭へ