Baidu検索エンジンについて
 

 Baidu検索エンジンについて

  1. Baidu検索エンジンについて

  2. Baidu.jpの「ウェブ検索」は、Baiduspiderと呼ばれるスパイダープログラムを利用してページの情報収集を実施しております。
    ウェブ検索の結果は、Baiduspiderの収集情報の結果を、自動的にデータベースに登録し、関連クエリにより表示されます。
    BaiduspiderはサイトのHTML中の「HREF」に指定されるURLリンクをたどって、情報収集、データベースに収集情報を登録のを実施して行きます。また、フレームページなどを作成するときに使用される「SRC」によって指定されたリンクは、BaiduSpiderによってたどれないため、データベースに登録されません。
    Baiduspiderのほかに、いくつかのクローラーがありますが、これらからのアクセスを禁止したい場合は、御手数ですが、webmaster-jp@baidu.com宛までご連絡ください。

  3. Baiduspiderとは

  4. Baiduspiderは、Baidu検索エンジンの自動プログラムです。Baiduspiderはインター ネット上のHTMLページにアクセスし、インデックスデータベースを作成し、Baidu検 索エンジンの検索結果にユーザが閲覧したいページを表示させます。
    Baiduspiderは、インターネット業界のrobotsルールを遵守しております。robots.txt を利用し、Baiduspiderがサイトの全部または一部へのアクセスを禁止することができま す。Robots.txtの書き方について、別ページ「robots.txtの書き方」をご参照ください。又、Baiduspider はMETAタグを利用して、アクセス制御を実現できます。別ページ「METAタグを利用したアクセス制限について」をご参照ください。
    Baidu検索エンジンは毎週更新を実施しております。ページの重要度により、更新頻度 は数日間から1ヶ月間に変わります。

  5. Baiducheckerとは

  6. BaiduCheckerは、各ウェブサイトへのアクセス頻度として、既存のSpiderと比べて変わりはありませんが、毎回チェックする際にHEAD技術を採用し、ウェブサイトに与える負荷を平均数百バイト程度と、かなり小さく抑えることが出来ます。これによって、BaiduCheckerは、各ウェブサイトサーバの資源および通信容量に対して、あまり負荷をかけずに、より有効にHTTP協議を利用して、きわめて少ないトラフィックで、既に存在しないウェブページを検出することが出来るようになります。

  7. 「検索エンジンスパム」とは

  8. 「検索エンジンスパム」とは、検索キーワードと十分な関連性がないにもかかわらず、意図的に検索結果に表示されるように操作をしているページを指します。 以下が、Baiduで定義する検索エンジンスパムの例です。
    1) 検索する利用者をほかのページに転送するためだけに存在するページ
    2) ほかのページとまったく同じ内容で作られたページ
    3) 情報をほとんど公開していないにもかかわらず、自動的かつ大量に作られているページ
    4) 検索エンジンが付与する表示順のランクを不正に上昇させているページ
    5) 検索する利用者に見えないテキストを使っているページ
    6) 過度な相互リンクを行い、サイトの認知度を不自然に上昇させているページ
    7) 検索エンジンの検索結果に表示されている内容と利用者が目にするページの内容が異なるページ
    8) 検索エンジンのために作られたページ

    なお、検索エンジンスパムに該当すると判断されたサイトは、データベースから随時削除されます。

  9. ASP、shtml、PHPなど、自動的に生成されるURLは登録されますか

  10. 検索エンジン用ロボットがページを探すときにたどるのは、主に静的リンクです。 ASP、shtml、PHPなど自動的に生成されるURLは登録されない可能性があります。 データベースに登録されるためには、動的に生成されたリンクを利用しないことをお すすめします。

  11. 検索エンジン用ロボットからのリクエスト数を制限するには

  12. Baidu検索エンジンはウェブ全体から何十億ものページを巡回し、データベースに登 録するため、複数の検索エンジン用ロボットを使っています。このためあなたのウェブ サーバーに、異なるIPドレスからBaidu検索のロボットがアクセスしているという記 録が残る可能性がございます。

    ・複数の検索エンジン用ロボットが巡回する際、1台のサーバーへのリクエスト数は 制限しています。しかし、1台のサーバーに複数のIPアドレスが割り当てられていると、複数のサーバーと認識され、リクエスト数が増加する場合がございます。

    ・検索エンジン用ロボットは、一度巡回する際に、各サイトからURLのファイルを1つずつダウンロードします。ただし、ロボットが停止したり、再起動した場合、すでに取得したページを再度巡回し直すため、リクエストが連続してしまうことがございます。

    リクエスト数を減らすにはアクセス間隔によって問題が生じている場合、検索エンジ ン用ロボットのアクセス間隔の設定を、サーバーの環境に合わせて設定してください。 「robots.txt」をウェブサーバーに置き、"Crawl-delay: xx"の"xx"を調整すると、アク セス間隔を伸ばせます。詳細は「robots.txtの書き方」をご参照ください。

  13. 検索エンジン用ロボットが削除したページを巡回し続けるときは

  14. 削除したURLのページにアクセスしたときに「HTTP 200」のステータスを返すよ うにサーバーが設定されている場合、検索エンジン用ロボットは削除されたページと 認識できず、そのURLにアクセスし続ける可能性がございます。

    存在しないURLにアクセスしたときは、「HTTP 404」のステータスを返すようにサ ーバーを設定してください。

トップに戻る

© 2008 Baidu 免責事項