FC2ブログ
111234567891011121314151617181920212223242526272829303101

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
【 --/--/-- (--) 】 スポンサー広告 | TB(-) | CM(-)

Hadoopデータベース≠データベース?

HiveやHBaseなどのHadoop上で実現してるデータベース、これってデータベース屋さんによるとデータベースでないらしい。
というか、あえてデータベースと呼んでもいいけど、少なくともRDBMSのひとつに数えて欲しくないらしい?

なぜかというと、大抵は

  • 実際にはHDFSの上にファイルをボコボコ置いているだけ
  • テーブルと称するものは、実際はHDFSに定義されたディレクトリとその中のファイル群
  • カラムや型などのメタデータは、後付けで決める
  • とりあえずロード(というかコピー)だけして、アプリから検索が飛んできたときに、
     
    • YARN使って該当ファイルを特定して読み出す
       
    • 読みつつ、登録されたメタデータに合うよう加工してアプリへ出力



という事をやってるからのようだ。
必ずしも最初からデータベースとしてきちんと整えられたデータを格納してるわけじゃなさそうだ。

もちろん、きちんとログインしてDDL実行してテーブル定義をきちんと作ってから、そこに当てはまるようデータを挿入する事もできるし、やってる所もあると思う。

ただ、それって、単純に

「品質の低いフリーデータベース」


な気がする。

Hadoopの得意とする非定型データの処理機能を殺してRDBMSとして使ってるわけだし。

企業などが使う商用データベースはもっと多機能で高性能だろうし、フリーのPostgreSQLやMySQLだって、歳を重ねたぶんHiveやHBaseに比べたらよっぽど優れてると思われる。

Hadoop Ecosystemの各種アプリは猛烈な勢いで進化してるから、今後どこまで低品質扱いされるかは知らないけど。


スポンサーサイト
【 2015/04/09 (Thu) 】 Hadoop | TB(0) | CM(0)
コメントの投稿












管理者にだけ表示を許可する
トラックバック
この記事のトラックバックURL

プロフィール

Ed U Song

Author:Ed U Song
社内ノマドなエンジニア。
仕事で触れる機会のないものを自宅環境作って実験。

スポンサーリンク
最新コメント
最新トラックバック
検索フォーム


                                         
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。