はじめに

機械学習の分類問題において、作成した予測モデルを評価する際にエラー率を確認したい場合があります。
VerticaはERROR_RATE関数を利用するとエラー率による評価を行えます。

ERROR_RATE

コマンド構文

パラメータ名内容
targets目的変数(正解情報)が格納されている列
predictions予測結果が格納されている列
num_classes(オプション) 評価するモデルのクラスの数。デフォルトは2。多項分類の場合は対応するクラス数を指定する。

Vertica 9.2から、INTEGER型だけでなく、BOOLEAN型、CHAR/VARCHAR型の入力データもサポートされ、分類アルゴリズムでも利用できるようになりました。

利用例



例として以下のロジスティック回帰を使用して、各車のcyl、wt列の値からがam列の値(0=オートマ、1=マニュアル)を予測し、その結果を評価します。
amが正解情報、predがVerticaが予測した結果です。


ERROR_RATE関数を利用し、上記の予測結果を評価します。
事前準備として、予測結果の呼び出しを簡素化するために、上記SQLをビューとして登録しておきます。


作成したpred_mtcars_resultsビューに対してERROR_RATE関数を実行します。


上記結果よりlogistic_reg_mtcarsモデルのエラー率は、0(オートマ)に対する分類では約14%、1(マニュアル)に対する分類では40%、全体では25%であることが確認できます。

参考情報

ERROR_RATE
https://www.vertica.com/docs/9.2.x/HTML/Content/Authoring/SQLReferenceManual/Functions/MachineLearning/ERROR_RATE.htm

検証バージョンについて

この記事の内容はVertica 9.1、9.2で確認しています。

更新履歴

2019/07/09 Vertica 9.2の情報を追加
2018/12/16 本記事を公開