ナスカ助け合い掲示板

■--googleのクロールについて
>>> egap [mail] [home] .. 2007年03月21日 17:25 No.[2088001]

いつもお世話になっております。

以前は、ほぼ毎日googleのクロールが来ていましたが、
ここ1年間ほどgoogleのクロールが行われておらず、
更新情報が反映されず困っております。

何かサーバー側でクロール拒否など行っているのでしょうか？
ちなみにYahooの方は頻繁にクロールされています。

対策方法などございましたら教えてください。
よろしくお願いします。

>>> webmaster .. 2007年03月22日 00:23 No.[2088002]

googleのクロウラーは一部中国からのIPがあるらしく、現在弊社では
不正アタック防止のため中国・韓国・台湾からのアクセスを遮断している関係上、
上手くクロールされないケースがあるようです。

こちら、近日google社と協議の上、調整してみたいと思います。
また、もし可能でしたら、googlesitemapを使ってみて頂けますでしょうか。

---
なお、御サイトにつきましてはコンテンツが充実しておりましたので
今年に入ってから弊社側よりYahoo!社にカテゴリ登録を申請し、掲載されております。
http://search.yahoo.co.jp/search/dir?p=http%3A%2F%2Fweb1.nazca.co.jp%2Fhp%2Fegap%2F&fr=msie7&ei=UTF-8
Yahoo!クロールが頻繁に行われているのは、その影響かもしれません。

>>> egap [mail] [home] .. 2007年03月23日 23:22 No.[2088003]

sitemapを作成し、Googleウェブマスターツールで確認しましたが、
サイトマップのステータスで下記のようなエラーが発生します。

「ネットワークにアクセスできません: robots.txt にアクセスできません
サイトマップにアクセスしようとした際にエラーが発生しました。
サイトマップがガイドラインに従っており、指定した場所からアクセス
できることを確認してから、再送信してください。」

サイトマップは以下のファイルです。
http://web1.nazca.co.jp/hp/egap/sitemap.xml
下記のサイトにて作成しました。
http://www.xml-sitemaps.com/

また、ウェブクロールに関してもアクセスエラーが出ており、
参照ヘルプとしては以下がリンクされております。
http://www.google.com/support/webmasters/bin/answer.py?answer=35154&hl=ja

robots.txtの分析では、最上位のディレクトリが指定されており、
　robots.txt URL 　　　　http://web1.nazca.co.jp/robots.txt
　最終ダウンロード日　　2007/03/23 1:21:02 PDT
　ステータス　　　　　　500 (サーバー内エラーが発生しました)
とエラーが出ております。

>>> webmaster .. 2007年03月24日 00:44 No.[2088004]
	情報提供ありがとうございます、頂いたデータを元に検証進めてみますのでしばらくお時間下さい。

>>> egap [mail] [home] .. 2007年03月24日 01:55 No.[2088005]
	お忙しいところ恐縮ではございますが、よろしくお願い致します。

>>> webmaster .. 2007年03月24日 10:58 No.[2088006]

頂いた情報を元に考えられる原因としましては、robots.txtが
弊社web1.nazca.co.jpのTOPディレクトリに存在しないケースが挙げられます。
（調査の結果、googlebotのIPアドレスは弊社除外IPには含まれておりませんでした）

先ほど、TOPディレクトリに全ディレクトリ検索指示を記述した
robots.txtを配置しましたので、これで数日様子を見たいと思います。
現時点（2007/3/24-AM10：58）での最新のクロールは
2007/03/23 13:21:06 PDT
となっておりますので、1-2日で読み込みが実行されるかと思います。

----
通常googlebotはrobots.txtが存在しない場合、ファイルがないものとして
クロールを進めますが、弊社サーバはファイルが無い場合、
自動的に「ファイルが見つかりません」というHTMLエラーページを表示する
仕組みとなっておりますため、googlebotの方で
「robots.txtが存在するにも関わらず正しく記述がされていない」
と誤認識している可能性がございます。

Yahooロボットのslupはrobots.txtの存在をgoogleほど厳格には
チェックしないため、この問題の影響は受けなかったようです。

>>> webmaster .. 2007年03月26日 08:59 No.[2088007]

早速クロール始まったようです。
http://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&rlz=1T4GGIH_jaJP211JP211&q=site%3ahttp%3a%2f%2fweb1%2enazca%2eco%2ejp%2fhp%2fegap%2f
全ページクロールされるまで、暫く時間がかかるかと思いますが、これで
問題解決するかと思います。
この度は貴重な情報提供、ありがとうございました。

>>> egap .. 2007年03月27日 07:47 No.[2088008]

迅速なご対応ありがとうございました。
全ページがクロールされるのを気長に待ちます。

あと、クロールされるという当初の目的を果たせましたので、
一応報告までとなりますが、robots.txtの分析は、
　robots.txt URL 　　http://web1.nazca.co.jp/robots.txt
　最終ダウンロード日 2007/03/26 14:47:02 PDT
　ステータス　　　　200 (成功しました)
となっておりますが、解析結果のところで、
「シンタックスが認識されませんでした」というエラーが出ております。
http://www.google.com/support/webmasters/bin/answer.py?answer=35240&ctx=sibling

>>> webmaster .. 2007年03月27日 22:45 No.[2088009]

シンタックスエラーというのは、記述エラーのことを示します。
こちら、全ファイルに自動的に広告が挿入される動作のため、広告の
HTMLコードがrobots.txtの記述エラーとして表示されておりますが、
ステータス自体は「成功」と記述されておりますので問題ありません。

ロボットに対しては冒頭に記述された
User-agent: *
Disallow:
の二行があれば正しく機能致しますので、ひとまずこのまま進めます。

>>> egap .. 2007年03月27日 22:59 No.[2088010]
	納得しました。迅速なご回答ありがとうございます。

▼返信フォーム▼

2011年3月より、セキュリティの堅牢な新掲示板に移行致しました。
こちらの掲示板は、過去ログ置き場としてお使い下さい。
→→ 新掲示板はこちらをクリックしてください　←←