# README
chop-csv
時系列データのCSVファイルをデータレイク用に分割して圧縮する。
使い方
引数に対象ファイル名を指定して実行すると、カレントディレクトリの chopped
ディレクトリに結果が保存される。
入力ファイルは複数あっても良い。
$ chop-csv ./input.csv
Windows環境でオプションを渡さないのであれば、exeに対象ファイルをドラッグアンドドロップするだけでも使える。
入力ファイルのルール
-
一番左の列をタイムスタンプにする。
デフォルトでは「YYYYMMDD」形式だが、
-date-format
オプションで変更可能。 -
Shift-JIS形式のCSVファイルとして保存する。
-utf8
オプションを付けるとUTF8として読む。
出力ファイルの形式
-
タイムスタンプを元にHive形式のディレクトリを生成する。
chopped/year=YYYY/month=MM/day=DD/
形式。chopped
の部分はout-dir
で変更できる。 -
出力ファイル名は入力ファイルの絶対パス名のmd5ハッシュを元に決定される。
同じ名前のファイルが既にあった場合警告なしで上書きするので注意。
-
出力csvはbzip2で圧縮される。