1012345678910111213141516171819202122232425262728293012

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
【 --/--/-- (--) 】 スポンサー広告 | TB(-) | CM(-)

Hadoopもどき?

ビッグデータのはしりっぽい事をやってる担当者に、巨大なファイルの調査と操作に時間がかかりすぎるので、パフォーマンス改善に協力してほしいと言われて一緒に苦労してた。

苦労ついでにいい加減疲れたので今日は早帰り。


なぜビッグデータの「はしり」かというと...Hadoopのような分散処理を前提にした仕組みは使わず、

  • 普通のLinuxサーバーを複数立ててる(複数だけど、そんなに沢山じゃない)
  • それらに手動でファイルを分割配置
  • AwkやPerlを使ってデータの加工・分析をしてる
との事。
ま、言ってしまえば、古き良きテキストファイル・マイニングを、大規模にやってるって事らしい。

Hadoop使ってないんじゃ、協力しても、新たに得られる知識はなさそうだな...と思っていたら、それは別にしても面白かった。


何が問題だったかというと、100GB近い巨大なテキストファイルの各フィールドを、正規表現を駆使してチェック・加工してる所に時間がかかり過ぎてるって事のようだ。
確かに正規表現は強力だけど、うまく使わないと、何やってるかわからなくなるし、処理時間も途方もないものになりかねない。


 
スポンサーサイト
【 2014/09/18 (Thu) 】 OS Linux | TB(0) | CM(0)

CentOS 7をダウンロード

各種ソフトウェアのインストーラーをダウンロードするところから始めようと思うが...
前回(年初)は、下記のソフトウェアをインストールしていた。

  • CentOS 6.5
  • PostgreSQL 9.3
  • Oracle Express 11g
  • Teradata Express 14


ダウンロードしようと思って各製品のサイトを見たら...いろいろ知らない間に新しいバージョンが出てる。
まず、Cent OSのメジャーバージョンが6から7に上がっている。

バージョン7は、Red Hatが公式に参加したようだ。Red Hat Enterprise Linuxとほぼ同等の機能を無料で無サポートで使いたい、という人向けのOSだと思っていた。Red Hatがメンテナーに加わった事でこれからどう変わっていくんだろうか。


CentOS 7での変更点は、こんな感じのようだ。細かい所はよくわからないが、新機能で自分が作ってる実験環境で影響しそうなのはJDKくらいか?
逆に制約の方が大きく影響しそうだ。制約はこんな感じ。

  • ネットワークインターフェースが標準で有効にならない。これはヒドいだろ。ネットワークに繋がっていないEnterprise Linuxなんて使い物になるのか?最初から有効にしとこうぜ。
  • 必要メモリ容量やディスプレイ解像度が上がったようだ。低解像度だと画面下部が切れるとあるが、仮想マシンで動かしてるとき、ちゃんと表示されるだろうか?インストール画面だけなら何とかなりそうだが...後で設定いじればいいわけだし。
  • 32bit CPU非対応。仮想マシンを64bitで作るから問題ないけど。



 
【 2014/08/22 (Fri) 】 OS Linux | TB(0) | CM(0)

CentOS ネットワーク設定 + yumによるネットワークパッケージ追加

CentOSのネットワーク設定が簡潔にまとめられたページを参考にして、ネットワーク関係の設定を行う。

ここに書いてある内容のとおり定義ファイル/etc/sysconfig/network-scripts/ifcfg-eth0を編集し、ネットワークのリスタートコマンド service network restart を実行したら、一般的に必要なeth0のネットワーク設定一式を変更できる。



次に、CentOSでネットワークでなくDVDからパッケージをインストールする方法。

まず、yumの設定ファイルが、デフォルトではネットワークのみ参照し、DVDを参照しないようになってるので、DVDを参照できるように編集する。
ここを参考にさせてもらった。


これらをインストール。
  • bind-utils
  • ntpd
  • wget
  • openssh-clients



【 2014/01/14 (Tue) 】 OS Linux | TB(0) | CM(0)

CentOS + VMware, ネットワーク設定にかなり難儀

ゲストOSのCentOSがネットワーク接続できない件、いろいろ試したあげく、以下の事がわかった。


・CentOSを最小構成でインストールすると、nslookupなどのネットワーク根幹ユーティリティが入らない。pingくらいは入るけど。
(最小すぎだろ!w)
ネットワークが繋がったと思ってたのは、pingがホストOSに対し通って満足してただけだったようだ。

・Win 7がホストOSの状態でNAT使おうとすると、VMware Playerインストール時に追加される仮想ネットワークアダプタ VMnetN の設定をするツールがインストールされない
そのため、デフォルトでアサインされるIPアドレス(DHCP)以外ではホスト⇔ゲスト間の通信ができない。

・CentOSでは、パッケージ管理にyumを使う。ただし、設定変更しないとネットワークからしかパッケージをインストールできない
ネットワークが繋がらないのでユーティリティを入れたい場合はどうしたら?w


道は長そうだ... データベースの勉強にはいつたどり着けるだろうか。
orz


【 2014/01/13 (Mon) 】 OS Linux | TB(0) | CM(0)

CentOS ネットワーク障害!!

仮想OSのインストールまでは簡単にいった。
ただ、ネットワークの設定でつまずいてしまった。

一度はゲストOSからホストOS経由で外部ネットワークにつながったけど、なぜかそれ以降つながらなくなってしまったし。
それに、ホストOSからゲストOSへの接続がうまくいかなかった。


データベース構築って目的だと、こりゃダメダメっすね。


いろいろ調べた結果、ブリッジとNAT(デフォルト)がゲストOSのネットワーク設定として選べるのだが、NATで固定IPアドレスにして、ホストOSゲストOSの間で相互に通信できるようにするのが一番簡単なようだ。
(いろいろ試す前、最初はそうしてた筈だが、なんでダメだったんだろう?)

ブリッジだと、ネカフェのWifiなどでDHCPの環境になったら、ゲストOSのネットワーク設定しないといけなくなってしまうしね。
それにアタックされても困るし。ノートPCをカフェとかに持って行くので、その時にきちんとセキュリティ対策されてないLinux環境がアクセスし放題になってもかなり困る。

それに、ブリッジだと、ゲストOSをDHCPにしない限りゲストOSのIPアドレスを都度設定しないといけなくなるし、ゲストがDHCPだとホストからの通信が面倒になる。


という事で、家庭ネットワーク内の話なのにも関わらず、ネットワーク構成図なんてものまで描いてしまった。どうやらきまった図式ってものは存在しないようなので、わかり易さ最優先で綺麗さを気にせず描く。

VISIOも持ってないしさ。

vmware_network_configs.png


パワポはお手のもの。IT関係と言っても、仕事では正直言ってメーラー以外はExcelとパワポくらいしか使わないからなぁ。

あ、それと会議室予約掲示板w


【 2014/01/12 (Sun) 】 OS Linux | TB(0) | CM(0)
プロフィール

Ed U Song

Author:Ed U Song
社内ノマドなエンジニア。
仕事で触れる機会のないものを自宅環境作って実験。

スポンサーリンク
最新コメント
最新トラックバック
検索フォーム


                                         
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。