Archive

Posts Tagged ‘Hadoop’

大規模分散処理を身近に、”Amazon Elastic MapReduce”のビジネス的インパクトは?

4月 3rd, 2009

logo_aws 先ほどAmazon Web Servicesから新しいサービスがBetaリリースされていましたね。

 その名も「Amazon Elastic MapReduce
 

MapReduceというのは、Googleの検索技術を支える分散処理アーキテクチャで、ようは「処理を細かいタスクに分けて、めちゃくちゃたくさんのPCに独立して処理させることで、スパコン並の能力を発揮させられる構造」という感じでしょう。
Amazon Elastic MapReduceのDemoはこちらから見れます。 
(Demoでは、ある文章の単語出現数を計算しています。) 

mapreduce

MapReduceを実装しているフレームワークで一番有名なのが、オープンソースのHadoopです。
商用化など、Tech界隈で話題のフレームワークなのですが、そもそも大規模分散処理用のインフラ技術なので人目につきにくく、ビジネス界隈では見慣れない名前ですよね。

言ってしまえば、「大規模分散処理が身近に!」ということなのですが、ビジネス的にどれくらい身近になるのか未知。
そこで、ちょっと計算してみました。(ものすごい大雑把な計算ですf^^;)

———— 計算 ———–

仮に、セットアップ・維持が3人日、処理が1台のサーバーで7日かかるシステムがあったとします。

するとそれにかかるコストは、だいたいこんな感じでしょうか。

  (セットアップおよび維持中)の人件費+10日分のサーバー費用(AmazonEC2.small:1台とS3:1台)
  =3人日×4万円(人月80万円)+(月8000円÷30×11日+1000円)
  ≒12.7万円 

それが、このAmazon Elastic MapReduceを使うと、だいたいセットアップ・維持に1人日、サーバーを4台使って2日くらいになると思います。すると、

  1人日×4万円+8000円÷30×2日×4台+1000円+MapReduce使用料:1000円くらい?
  ≒4.5万円

コストがおよそ1/3くらいになりますね。
もちろん前者の例ではAmazon EC2を使って、サーバー代をかなり浮かせているため、実質は20万円以上かかると思います。

———— 計算 ———–

小規模な処理だとコスト削減はこれくらいですが、サーバーを数百代、数千台使う処理だと雲泥の差に なるでしょう。

かつ、これだけ簡単に使えるようになると、多くの業者がこのサービスを使ったソリューションを提供することが考えられます。
昔なら100万円以上したECサイトの開設が、今や10万円以下で作れるようになり、販売のビジネスチャンスが大きく広がった、くらいのインパクトにはなりえそうですね。

もちろん重要なのは、この高性能演算システムを安価に使えて何をするか、なのですが。
今は下記くらいしか用法が思いつきません。。。

  • 大規模なクローリングとインデックス化が必要な検索エンジン
  • 機械学習によるレコメンドエンジン
  • データマイニング
  • ログファイルの解析
  • 科学的なシミュレーション
  • 生物学的な実験

まだまだ検索・レコメンドエンジンやアカデミックな領域を出ない分野ではありますが、逆にいえばものすごいチャンスでもあるので、何か面白いプロダクト・サービスを作る会社が出てくるのに期待ですね。

もちろん弊社でもバリバリ狙っていきますがw

なお、MapReduceの技術的説明は、id:nayoyaさんのブログが詳しいです。

※追記 Techcrunchでも紹介されていました。

8maki IT, proposal, survey, テクノロジー, ビジネス , ,