はじめに

TABLESAMPLE句を利用すると任意のテーブルやビューから、無作為にデータをサンプリングすることができます。
例えば、機械学習のためのデータを準備する際にTABLESAMPLE句を利用して、学習データ/テストデータの分割を行うことができます。

TABLESAMPLE

コマンド構文

利用例

例としてirisテーブルのデータを機械学習で利用するために、TABLESAMPLE句を使用して学習データとテストデータに分割します。
・学習データ:iris_studyに格納
・テストデータ:iris_testに格納

なお、TABLESAMPLE句で返される行数は指定したパーセントに対して厳密ではなくおおよその行数で、実行する度に変わります。

例)TABLESAMPLE(70)を複数回実行した場合の結果

参考情報

Sampling Data
https://my.vertica.com/docs/9.1.x/HTML/index.htm#Authoring/AnalyzingData/MachineLearning/DataPreparation/SamplingData.htm

検証バージョンについて

この記事の内容はVertica 9.1で確認しています。