はじめに

機械学習を行う際などは、対象データの平均、中央値、最大値/最小値、標準偏差等を確認して、データを俯瞰する必要があります。
Vertica 9.0より、SUMMARIZE_NUMCOL関数を使用することで、これら統計サマリー情報をテーブル毎に一括で確認することが可能になりました。

SUMMARIZE_NUMCOL関数で取得できる情報は、件数、平均、標準偏差、最小値/最大値、パーセンタイルです。

SUMMARIZE_NUMCOL

コマンド構文

パラメータ内容
列名1,列名2,列名3,...,列名n統計サマリーの取得対象列
exclude_columns(オプション) 対象列を*(全列)と指定した場合に、対象列から除外する列
※9.0.1以降

利用例

社員データが格納されているemployeeテーブルを例にします。

age列、salary列の統計サマリー情報を確認します。

このように、SUMMARIZE_NUMCOL関数を使用することで、主要な統計サマリーデータを一括で確認することができます。

参考情報

SUMMARIZE_NUMCOL
https://my.vertica.com/docs/9.0.x/HTML/index.htm#Authoring/SQLReferenceManual/Functions/MachineLearning/SUMMARIZE_NUMCOL.htm

検証バージョンについて

この記事の内容はVertica 9.0.1で確認しています。