Categorygithub.com/macrat/chop-csv
repositorypackage
0.2.2
Repository: https://github.com/macrat/chop-csv.git
Documentation: pkg.go.dev

# README

chop-csv

時系列データのCSVファイルをデータレイク用に分割して圧縮する。

使い方

引数に対象ファイル名を指定して実行すると、カレントディレクトリの chopped ディレクトリに結果が保存される。 入力ファイルは複数あっても良い。

$ chop-csv ./input.csv

Windows環境でオプションを渡さないのであれば、exeに対象ファイルをドラッグアンドドロップするだけでも使える。

入力ファイルのルール

  • 一番左の列をタイムスタンプにする。

    デフォルトでは「YYYYMMDD」形式だが、 -date-format オプションで変更可能。

  • Shift-JIS形式のCSVファイルとして保存する。

    -utf8 オプションを付けるとUTF8として読む。

出力ファイルの形式

  • タイムスタンプを元にHive形式のディレクトリを生成する。

    chopped/year=YYYY/month=MM/day=DD/ 形式。 chopped の部分は out-dir で変更できる。

  • 出力ファイル名は入力ファイルの絶対パス名のmd5ハッシュを元に決定される。

    同じ名前のファイルが既にあった場合警告なしで上書きするので注意。

  • 出力csvはbzip2で圧縮される。