Tablelinker-light ドキュメント

Tablelinker は CSV や Excel ファイルなどの表データを読み込み、 さまざまな コンバータ を適用して変換・加工し、 目的のフォーマットの CSV データを生成するツールとして、 2023年に国立情報学研究所より公開されました。

GitHub リポジトリはこちら

Tablelinker-light はこの Tablelinker の機能のうち、 研究的な側面の強い機能を削除することで依存ライブラリを減らし、 ETL ツールとして利用しやすいように軽量化を行った派生バージョンです。

基本的に、ファイルから1行ずつ読み込みながら何らかの加工を行い、 別のファイルに1行ずつ出力するという処理を行います。

具体的には以下のようなことができます。

  • Excel ファイルを読み込み、 CSV に変換。

  • ファイル先頭部分のコメントなど、表データではない行の削除。

  • 文字エンコーディングが不明な CSV ファイルを UTF-8 CSV に変換。

  • 列の順番が仕様と異なっている巨大な CSV ファイルを、正しい順番に 並べ替えて出力。

  • 和暦西暦変換やジオコーディング、日付・時刻の正規化など。

一方、以下のような処理は行単位で処理できないため、扱えません。

  • 平均や最大・最小などの集計処理。

  • 相関分析などの解析処理。

  • 行のソート。

  • 複数の表データの結合(JOIN)。

Tablelinker で読み込んだデータに対してこれらの処理を行いたい というニーズもあるので、 Pandas や Polars といったデータフレームと 表データをやりとりする機能も用意しています。