Googleはなぜ検索できるのか
今では世界的企業であるGoogle (Google LLC)。
Google社の一番の製品はなんと言っても検索エンジンの「google.com」です。
世界中からの検索の多くはこのサイトから始まっています。
そんな検索エンジンのGoogle、2016年の1年間で検索数がなんと2兆回にもおよぶとの調査結果があります。
シンプルなトップページ
※実際のページとは多少異なる点があります。
私がいつも利用しているGoogleのトップページ。
広告が一切なく、すっきりとした印象のほとんどの人が見たであろうページ。
検索する
普段当たり前のように利用している検索ですが、なぜGoogleで検索すれば情報が手に入るのでしょうか。
検索ということは、Googleが持っている辞書のようなものの中から特定のキーワードが含まれているWebページをリストアップさせることです。
要するに、Googleは辞書を持っているということです。
クロール
検索エンジンを育てるには、「クローラ」と呼ばれるプログラムが便利です。
クローラというのは、その名の通りクロールをするプログラムです。
水泳の授業でやるクロールのように、インターネットという果てしないプール(ここでは敢えて海と言わない)の中でクロールをしながらWebページの情報を集めるのが仕事です。このプログラムを使う利点は、人が細かくページをチェックするより、プログラムにやらせたほうが楽ができるという点です。
私達はこのようなGoogleの水泳選手のおかげでGoogle検索ができているという仕組みです。
欠点
ここからは興味がある方向けです。特に興味がなければ読み流していただいて構いません。
クローラは、各Webページを見るという特徴であるがゆえに、Webサーバーに機械的な負荷をかけてしまうことがあります。
人がアクセスする場合はWebページの閲覧にある程度の時間を費やすと思いますが、プログラムからすると、どんなに長い記事でも一瞬で理解することができるため、1秒間に数え切れないほどのアクセスをすることが容易となります。
ということは、一つのWebサーバーに1万人の人がアクセスするような状況が起こり得るわけです。
その結果、サーバーダウンなどの通信障害を引き起こすおそれがあります。
過去のこのような事件を見るとよくわかります。