0812345678910111213141516171819202122232425262728293010

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
【 --/--/-- (--) 】 スポンサー広告 | TB(-) | CM(-)

正規表現は後で面倒だから触るの後回し?

テキストマイニング(?)プロジェクト、とりあえずいろいろ試行錯誤している中で、誰かが見つけてきたPerlに詳しいっていうエンジニアから、いろいろダメ出しをされた。
要約すると、


  • ムダなループや処理フローなど、ロジックの見直しを先にしろ。正規表現のチューニングは難しいし処理内容への影響の検証が大変。
  • 正規表現に頼りすぎるな。もっと簡単なもので同じことができるなら、そっちを使え。
  • ネットに転がってる正規表現は、そのまま使うな。性能まで考えて書かれてないので。(言語、処理系によって仕組みが違うので、ベストな性能の正規表現パターンってのは簡単に決められない?)
  • あえてチューニング的に凝った事をやるなら、オライリーの動物園シリーズから正規表現の本を買って読め。



よくよくスクリプトを見てたら、あまり効率的でない形で書かれてた。
なんでも、Perl使ったことはないけど、初めて書いたとの事。正規表現を使いまくらないといけなさそうだという事で、正規表現との相性が一番良い言語を使おうという決断だったらしい。

で、いろいろネットで調べて出てくる正規表現や処理ロジック部分を切り貼りして作った即席版だとの事。後続のビジネス寄りの部分がメインで、それも実現可能性を見るためのプロジェクトらしく、データさえ用意できれば性能や信頼性は問わないとの事で始められたっぽい?


で、正規表現以外のところで十分性能改善でき、夜間流しっ放しにして片付けたようだ。結局正規表現の細かいところは触らず。


 
スポンサーサイト
【 2014/09/23 (Tue) 】 OS Linuxコマンド(編集用) | TB(0) | CM(0)
コメントの投稿












管理者にだけ表示を許可する
トラックバック
この記事のトラックバックURL

プロフィール

Ed U Song

Author:Ed U Song
社内ノマドなエンジニア。
仕事で触れる機会のないものを自宅環境作って実験。

スポンサーリンク
最新コメント
最新トラックバック
検索フォーム


                                         
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。