0812345678910111213141516171819202122232425262728293010

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
【 --/--/-- (--) 】 スポンサー広告 | TB(-) | CM(-)

Hadoopデータベース≠データベース?

HiveやHBaseなどのHadoop上で実現してるデータベース、これってデータベース屋さんによるとデータベースでないらしい。
というか、あえてデータベースと呼んでもいいけど、少なくともRDBMSのひとつに数えて欲しくないらしい?

なぜかというと、大抵は

  • 実際にはHDFSの上にファイルをボコボコ置いているだけ
  • テーブルと称するものは、実際はHDFSに定義されたディレクトリとその中のファイル群
  • カラムや型などのメタデータは、後付けで決める
  • とりあえずロード(というかコピー)だけして、アプリから検索が飛んできたときに、
     
    • YARN使って該当ファイルを特定して読み出す
       
    • 読みつつ、登録されたメタデータに合うよう加工してアプリへ出力



という事をやってるからのようだ。
必ずしも最初からデータベースとしてきちんと整えられたデータを格納してるわけじゃなさそうだ。

もちろん、きちんとログインしてDDL実行してテーブル定義をきちんと作ってから、そこに当てはまるようデータを挿入する事もできるし、やってる所もあると思う。

ただ、それって、単純に

「品質の低いフリーデータベース」


な気がする。

Hadoopの得意とする非定型データの処理機能を殺してRDBMSとして使ってるわけだし。

企業などが使う商用データベースはもっと多機能で高性能だろうし、フリーのPostgreSQLやMySQLだって、歳を重ねたぶんHiveやHBaseに比べたらよっぽど優れてると思われる。

Hadoop Ecosystemの各種アプリは猛烈な勢いで進化してるから、今後どこまで低品質扱いされるかは知らないけど。


スポンサーサイト
【 2015/04/09 (Thu) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:Hive




Hive (Apache project)





超概要
Hadoop上で構築されたデータウェアハウス。最初はFacebookが開発したものだったが、さまざまな団体が参加。
操作言語としてSQLに似たHiveQLを使うが、機能は限定的
由来
Hive (蜂の巣箱)。HadoopのHで始まる大量の何かを表す単語を探した?


外部サイト
http://en.wikipedia.org/wiki/Apache_Hive
http://ja.wikipedia.org/wiki/Apache_Hive
https://hive.apache.org/


 
【 2015/04/05 (Sun) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:HBase

そろそろHadoopの上で動くものについても書くか...
名前の由来を調べるのが意外と大変だが...どうしてもわからない場合は不明としとくか。
だれか教えてください。




HBase (Apache project)




超概要
Hadoop上で構築されたデータウェアハウス。
ただし、Hiveと異なり、列指向。
SQL的な操作言語はなく、Java APIを使ってアクセスする。外部製品・ツールでSQLアクセスできるようにするものは存在する。

由来
HadoopのDataBase?



外部サイト
http://en.wikipedia.org/wiki/Apache_HBase
http://ja.wikipedia.org/wiki/Apache_HBase
http://hbase.apache.org/


 
【 2015/04/05 (Sun) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:データサイロ


データサイロ




超概要
データウェアハウスのつもりで特定の目的に限られた蓄積を様々な場所で行っているシステム。
予算・技術・政治的理由でデータウェアハウスを実現できていないシステム群についてもそう呼ぶ。

由来
農場のサイロ(単一の穀物・資材のみ大量にストックする塔型の倉庫)。
様々なものを包括的にとりこむデータのウェアハウス(倉庫)に対し、小規模のストレージが多数散在しているイメージ。


外部サイト
http://www.itmedia.co.jp/im/articles/0609/30/news018.html
http://en.wikipedia.org/wiki/Information_silo


いい加減、Hadoop関連ソフトウェアそのものについて書かないといけなくなって来たかな...


 
【 2015/04/04 (Sat) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:データマート


データマート




超概要
データウェアハウス環境におけるデータ公開レイヤー。用途・性能・セキュリティを目的に特定の内容に絞られている。

由来
ウェアハウス(倉庫)から手に取れるよう陳列されたマート(市場・店舗)



外部サイト
http://en.wiktionary.org/wiki/data_mart#English
http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%9E%E3%83%BC%E3%83%88


 
【 2015/04/04 (Sat) 】 Hadoop | TB(0) | CM(0)
プロフィール

Ed U Song

Author:Ed U Song
社内ノマドなエンジニア。
仕事で触れる機会のないものを自宅環境作って実験。

スポンサーリンク
最新コメント
最新トラックバック
検索フォーム


                                         
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。