0512345678910111213141516171819202122232425262728293007
スポンサーリンク

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
【 --/--/-- (--) 】 スポンサー広告 | TB(-) | CM(-)

Hadoopデータベース≠データベース?

HiveやHBaseなどのHadoop上で実現してるデータベース、これってデータベース屋さんによるとデータベースでないらしい。
というか、あえてデータベースと呼んでもいいけど、少なくともRDBMSのひとつに数えて欲しくないらしい?

なぜかというと、大抵は

  • 実際にはHDFSの上にファイルをボコボコ置いているだけ
  • テーブルと称するものは、実際はHDFSに定義されたディレクトリとその中のファイル群
  • カラムや型などのメタデータは、後付けで決める
  • とりあえずロード(というかコピー)だけして、アプリから検索が飛んできたときに、
     
    • YARN使って該当ファイルを特定して読み出す
       
    • 読みつつ、登録されたメタデータに合うよう加工してアプリへ出力



という事をやってるからのようだ。
必ずしも最初からデータベースとしてきちんと整えられたデータを格納してるわけじゃなさそうだ。

もちろん、きちんとログインしてDDL実行してテーブル定義をきちんと作ってから、そこに当てはまるようデータを挿入する事もできるし、やってる所もあると思う。

ただ、それって、単純に

「品質の低いフリーデータベース」


な気がする。

Hadoopの得意とする非定型データの処理機能を殺してRDBMSとして使ってるわけだし。

企業などが使う商用データベースはもっと多機能で高性能だろうし、フリーのPostgreSQLやMySQLだって、歳を重ねたぶんHiveやHBaseに比べたらよっぽど優れてると思われる。

Hadoop Ecosystemの各種アプリは猛烈な勢いで進化してるから、今後どこまで低品質扱いされるかは知らないけど。


スポンサーサイト
【 2015/04/09 (Thu) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:Hive




Hive (Apache project)





超概要
Hadoop上で構築されたデータウェアハウス。最初はFacebookが開発したものだったが、さまざまな団体が参加。
操作言語としてSQLに似たHiveQLを使うが、機能は限定的
由来
Hive (蜂の巣箱)。HadoopのHで始まる大量の何かを表す単語を探した?


外部サイト
http://en.wikipedia.org/wiki/Apache_Hive
http://ja.wikipedia.org/wiki/Apache_Hive
https://hive.apache.org/


 
【 2015/04/05 (Sun) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:HBase

そろそろHadoopの上で動くものについても書くか...
名前の由来を調べるのが意外と大変だが...どうしてもわからない場合は不明としとくか。
だれか教えてください。




HBase (Apache project)




超概要
Hadoop上で構築されたデータウェアハウス。
ただし、Hiveと異なり、列指向。
SQL的な操作言語はなく、Java APIを使ってアクセスする。外部製品・ツールでSQLアクセスできるようにするものは存在する。

由来
HadoopのDataBase?



外部サイト
http://en.wikipedia.org/wiki/Apache_HBase
http://ja.wikipedia.org/wiki/Apache_HBase
http://hbase.apache.org/


 
【 2015/04/05 (Sun) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:データサイロ


データサイロ




超概要
データウェアハウスのつもりで特定の目的に限られた蓄積を様々な場所で行っているシステム。
予算・技術・政治的理由でデータウェアハウスを実現できていないシステム群についてもそう呼ぶ。

由来
農場のサイロ(単一の穀物・資材のみ大量にストックする塔型の倉庫)。
様々なものを包括的にとりこむデータのウェアハウス(倉庫)に対し、小規模のストレージが多数散在しているイメージ。


外部サイト
http://www.itmedia.co.jp/im/articles/0609/30/news018.html
http://en.wikipedia.org/wiki/Information_silo


いい加減、Hadoop関連ソフトウェアそのものについて書かないといけなくなって来たかな...


 
【 2015/04/04 (Sat) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:データマート


データマート




超概要
データウェアハウス環境におけるデータ公開レイヤー。用途・性能・セキュリティを目的に特定の内容に絞られている。

由来
ウェアハウス(倉庫)から手に取れるよう陳列されたマート(市場・店舗)



外部サイト
http://en.wiktionary.org/wiki/data_mart#English
http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%9E%E3%83%BC%E3%83%88


 
【 2015/04/04 (Sat) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:データウェアハウス


データウェアハウス




超概要
会社組織などの意思決定のため、広範囲データの長期保存・分析に特化したデータベース。通常は大規模。

由来
データの「倉庫」。よくいうデータベースはデータの「基地」。基地の中でも資材を格納・蓄積するのがメインの場所って感じ?


外部サイト
http://en.wikipedia.org/wiki/Data_warehouse
http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%82%A6%E3%82%A7%E3%82%A2%E3%83%8F%E3%82%A6%E3%82%B9


 
【 2015/04/04 (Sat) 】 Hadoop | TB(0) | CM(0)

SQL関係の検索は超不便

英語のページでの技術系の検索、とくにSQLについては超不便なんだよな。


データベース言語のSQLは、COBOLほどではないにしても、他のプログラミング言語に比べて記号や独自単語が少なく、日常英単語を組み合わせて使う事が多い。
そのため、検索キーワードとして投げる単語が技術系以外のページにもバシバシ引っかかってしまう。

このように日常英単語がメインの言語仕様になったのには、もちろんビジネスエンドユーザーでも使いやすいようにという意図があったのだろうが、もう一つ理由があるらしい。


ANSI委員会でCOBOLでおなじみIBMの声が大きくて、どうしても似た傾向になってしまうのでは、という影の声も聞かれる。w


 
【 2015/03/26 (Thu) 】 データベース | TB(0) | CM(0)

データベースもやらなきゃ

今度はデータベースについて書いてみる。
Hadoopについて調べるのを「たったあれだけで」あきらめたわけじゃないけど、データベースについてもホッタラカシになってたので。

ネットでいろいろデータベースについて記事をみるけど、比較記事はユーザー企業、SI、アーキテクトと呼ばれる人達の視点で書かれたハイレベルなものがほとんど。また、実際に手を動かすエンジニアの視点では、Oracle SQLについてはある程度見かけるけど、それ以外のプラットフォームについてはほとんど見かけない。

英語のページだったらOracle以外もちょっとは検索に引っかかるが...

まずは勉強兼ねていろいろ各種機能を比較してみることにする。


 
【 2015/03/26 (Thu) 】 データベース | TB(0) | CM(0)

Hadoop用語集:データスワンプ


データスワンプ




超概要
前述のデータレイクを作ろうとして、取り込み始めたはいいもののビジネス価値のある分析ができないシステム。
メタデータなどシステム管理まわりがきちんと取決めされていないのが原因で、溜まる一方で使うにも使えない状態になる事をいうらしい。
(非定型データの柔軟性がHadoopの利点とはいえども...)

由来
レイク(湖)に対するスワンプ(沼)w


外部サイト
http://www.gartner.com/newsroom/id/2809117


※タイトルが間違ってたのに気付いたので直しました。
途中から違う内容で書こうとして、直し忘れ...皮肉とか変な狙いがあったわけじゃありませんが。w


 
【 2015/03/23 (Mon) 】 Hadoop | TB(0) | CM(0)

Hadoop用語集:データレイク


データレイク




超概要
さまざまな種類の、さまざまな場所から来た、一か所に集められたデータ。またはその集める仕組み。

由来
データを水だとしたら、それを大量に一か所に集めた状態として名付けた?データウェアハウスのウェアハウスより広い?


外部サイト
http://en.wiktionary.org/wiki/data_lake


 
【 2015/03/23 (Mon) 】 Hadoop | TB(0) | CM(0)
プロフィール

Ed U Song

Author:Ed U Song
社内ノマドなエンジニア。
仕事で触れる機会のないものを自宅環境作って実験。

スポンサーリンク
最新コメント
最新トラックバック
検索フォーム


                                         
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。