はじめに
本記事では、機械学習アルゴリズムのトレーニングで使用できるデータ型について、ご紹介します。各アルゴリズムで使用できるデータ型には「Y」、使用できないデータ型には「N」を記しています。
回帰モデル
回帰モデルの各アルゴリズムにおいて、トレーニング時の予測因子(Predictor)と応答(Response)で使用可能なデータ型は以下のとおりです。予測因子
| アルゴリズム | INT | FLOAT | NUMERIC | BOOL | CHAR | VARCHAR | 
|---|---|---|---|---|---|---|
| Linear_reg | Y | Y | Y | Y (※1) | N (※2) | N (※2) | 
| svm_regressor | Y | Y | Y | Y (※1) | N (※2) | N (※2) | 
| rf_regressor | Y | Y | Y (※1) | Y | Y | Y | 
※1:Vertica 9.2以降で利用できます。
※2:One_hot_encorderで変換後に利用できます。
応答
| アルゴリズム | INT | FLOAT | NUMERIC | BOOL | CHAR | VARCHAR | 
|---|---|---|---|---|---|---|
| Linear_reg | Y | Y | Y | N | N | N | 
| svm_regressor | Y | Y | Y | N | N | N | 
| rf_regressor | Y | Y | Y (※1) | N | N | N | 
※1:Vertica 9.2以降で利用できます。
分類モデル
分類モデルの各アルゴリズムにおいて、トレーニング時の予測因子(Predictor)と応答(Response)で使用可能なデータ型は以下のとおりです。予測因子
| アルゴリズム | INT | FLOAT | NUMERIC | BOOL | CHAR | VARCHAR | 
|---|---|---|---|---|---|---|
| Logistic_reg | Y | Y | Y | Y (※1) | N (※2) | N (※2) | 
| svm_classifier | Y | Y | Y | Y (※1) | N (※2) | N (※2) | 
| naive_bayes | Y | Y | Y (※1) | Y | Y | Y | 
| rf_classifier | Y | Y | Y (※1) | Y | Y | Y | 
※1:Vertica 9.2以降で利用できます。
※2:One_hot_encorderで変換後に利用できます。
応答
| アルゴリズム | INT | FLOAT | NUMERIC | BOOL | CHAR | VARCHAR | 
|---|---|---|---|---|---|---|
| Logistic_reg | Y | Y | Y | Y (※1) | N (※2) | N (※2) | 
| svm_classifier | Y | Y | Y | Y (※1) | N (※2) | N (※2) | 
| naive_bayes | Y | Y (※1) | Y (※1) | Y (※1) | Y | Y | 
| rf_classifier | Y (※1) | Y (※1) | Y (※1) | Y (※1) | Y | Y | 
※1:Vertica 9.2以降で利用できます。
※2:二値分類のためサポートしていません。
参考情報
任意のデータをOne-hot 表現に変換する(Vertica 9.0新機能)https://vertica-tech.ashisuto.co.jp/one_hot_encoder/


