[サポート掲示板トップへ]   新規投稿



■--googleのクロールについて
>>> egap    [mail]   [home]      .. 2007年03月21日 17:25   No.[2088001]

いつもお世話になっております。

以前は、ほぼ毎日googleのクロールが来ていましたが、
ここ1年間ほどgoogleのクロールが行われておらず、
更新情報が反映されず困っております。

何かサーバー側でクロール拒否など行っているのでしょうか?
ちなみにYahooの方は頻繁にクロールされています。

対策方法などございましたら教えてください。
よろしくお願いします。


>>> webmaster          .. 2007年03月22日 00:23   No.[2088002]
googleのクロウラーは一部中国からのIPがあるらしく、現在弊社では
不正アタック防止のため中国・韓国・台湾からのアクセスを遮断している関係上、
上手くクロールされないケースがあるようです。

こちら、近日google社と協議の上、調整してみたいと思います。
また、もし可能でしたら、googlesitemapを使ってみて頂けますでしょうか。

---
なお、御サイトにつきましてはコンテンツが充実しておりましたので
今年に入ってから弊社側よりYahoo!社にカテゴリ登録を申請し、掲載されております。
http://search.yahoo.co.jp/search/dir?p=http%3A%2F%2Fweb1.nazca.co.jp%2Fhp%2Fegap%2F&fr=msie7&ei=UTF-8
Yahoo!クロールが頻繁に行われているのは、その影響かもしれません。


>>> egap    [mail]   [home]   .. 2007年03月23日 23:22   No.[2088003]
sitemapを作成し、Googleウェブマスターツールで確認しましたが、
サイトマップのステータスで下記のようなエラーが発生します。

「ネットワークにアクセスできません: robots.txt にアクセスできません
サイトマップにアクセスしようとした際にエラーが発生しました。
サイトマップがガイドラインに従っており、指定した場所からアクセス
できることを確認してから、再送信してください。」

サイトマップは以下のファイルです。
http://web1.nazca.co.jp/hp/egap/sitemap.xml
下記のサイトにて作成しました。
http://www.xml-sitemaps.com/

また、ウェブクロールに関してもアクセスエラーが出ており、
参照ヘルプとしては以下がリンクされております。
http://www.google.com/support/webmasters/bin/answer.py?answer=35154&hl=ja

robots.txtの分析では、最上位のディレクトリが指定されており、
 robots.txt URL     http://web1.nazca.co.jp/robots.txt
 最終ダウンロード日   2007/03/23 1:21:02 PDT
 ステータス       500 (サーバー内エラーが発生しました)
とエラーが出ております。


>>> webmaster          .. 2007年03月24日 00:44   No.[2088004]
情報提供ありがとうございます、頂いたデータを元に検証進めてみますので
しばらくお時間下さい。


>>> egap    [mail]   [home]   .. 2007年03月24日 01:55   No.[2088005]
お忙しいところ恐縮ではございますが、
よろしくお願い致します。


>>> webmaster          .. 2007年03月24日 10:58   No.[2088006]
頂いた情報を元に考えられる原因としましては、robots.txtが
弊社web1.nazca.co.jpのTOPディレクトリに存在しないケースが挙げられます。
(調査の結果、googlebotのIPアドレスは弊社除外IPには含まれておりませんでした)

先ほど、TOPディレクトリに全ディレクトリ検索指示を記述した
robots.txtを配置しましたので、これで数日様子を見たいと思います。
現時点(2007/3/24-AM10:58)での最新のクロールは
2007/03/23 13:21:06 PDT
となっておりますので、1-2日で読み込みが実行されるかと思います。

----
通常googlebotはrobots.txtが存在しない場合、ファイルがないものとして
クロールを進めますが、弊社サーバはファイルが無い場合、
自動的に「ファイルが見つかりません」というHTMLエラーページを表示する
仕組みとなっておりますため、googlebotの方で
「robots.txtが存在するにも関わらず正しく記述がされていない」
と誤認識している可能性がございます。

Yahooロボットのslupはrobots.txtの存在をgoogleほど厳格には
チェックしないため、この問題の影響は受けなかったようです。


>>> webmaster          .. 2007年03月26日 08:59   No.[2088007]
早速クロール始まったようです。
http://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&rlz=1T4GGIH_jaJP211JP211&q=site%3ahttp%3a%2f%2fweb1%2enazca%2eco%2ejp%2fhp%2fegap%2f
全ページクロールされるまで、暫く時間がかかるかと思いますが、これで
問題解決するかと思います。
この度は貴重な情報提供、ありがとうございました。


>>> egap          .. 2007年03月27日 07:47   No.[2088008]
迅速なご対応ありがとうございました。
全ページがクロールされるのを気長に待ちます。


あと、クロールされるという当初の目的を果たせましたので、
一応報告までとなりますが、robots.txtの分析は、
 robots.txt URL   http://web1.nazca.co.jp/robots.txt
 最終ダウンロード日 2007/03/26 14:47:02 PDT
 ステータス     200 (成功しました)
となっておりますが、解析結果のところで、
「シンタックスが認識されませんでした」というエラーが出ております。
http://www.google.com/support/webmasters/bin/answer.py?answer=35240&ctx=sibling


>>> webmaster          .. 2007年03月27日 22:45   No.[2088009]
シンタックスエラーというのは、記述エラーのことを示します。
こちら、全ファイルに自動的に広告が挿入される動作のため、広告の
HTMLコードがrobots.txtの記述エラーとして表示されておりますが、
ステータス自体は「成功」と記述されておりますので問題ありません。

ロボットに対しては冒頭に記述された
User-agent: *
Disallow:
の二行があれば正しく機能致しますので、ひとまずこのまま進めます。


>>> egap          .. 2007年03月27日 22:59   No.[2088010]
納得しました。
迅速なご回答ありがとうございます。


▼返信フォーム▼

2011年3月より、セキュリティの堅牢な新掲示板に移行致しました。
こちらの掲示板は、過去ログ置き場としてお使い下さい。
→→ 新掲示板はこちらをクリックしてください ←←


PW:
※管理者PW、もしくはスレッド作成者のPWを入力することで、
このスレッドをロックすることができます。
No: PASS:
※Noは、日付の後ろについている「No.XXXX」の英数字になります。