オート MLを活用した数値予測
sn

support nehan

Created Oct 27, 2023

オート MLを活用した数値予測

51
1

"データを分析する"をクリック

"データを分析する"をクリック
2

"分析プロジェクトの新規作成"をクリック

"分析プロジェクトの新規作成"をクリック
3

任意の分析プロジェクト名をクリック

任意の分析プロジェクト名をクリック
4

"作成して開始"をクリック

"作成して開始"をクリック
5

"分析するデータを配置する"をクリック

"分析するデータを配置する"をクリック
6

"サンプル"をクリック

"サンプル"をクリック
7

"1985年にアメリカに輸入された車"をクリックして選択

"1985年にアメリカに輸入された車"をクリックして選択
8

"データを読み込む"をクリック

"データを読み込む"をクリック
9

"データ結合・分割"カテゴリをクリック

"データ結合・分割"カテゴリをクリック
10

"ランダムにデータを分割"をクリック

"ランダムにデータを分割"をクリック
11

0.2を入力

データの80%を学習モデル構築用データにし、20%を精度検証データとします。

0.2を入力
12

"乱数シードを固定する"をクリック

"乱数シードを固定する"をクリック
13

"777"を入力

"777"を入力
14

"実行"をクリック

"実行"をクリック
15

"機械学習"カテゴリをクリック

"機械学習"カテゴリをクリック
16

"教師あり学習"カテゴリをクリック

"教師あり学習"カテゴリをクリック
17

"オートML"をクリック

"オートML"をクリック
18

"数値予測"をクリック

"数値予測"をクリック
19

"列を選択"をクリック

"列を選択"をクリック
20

"車体金額"をクリック

車体金額を予測するモデルを構築します。

"車体金額"をクリック
21

"列選択"をクリック

車体金額を、その他のデータ(車体サイズやメーカー名や燃費など)で予測するモデルを構築します。

"列選択"をクリック
22

選択モードをクリック

選択モードをクリック
23

"次を削除"をクリック

"次を削除"をクリック
24

"列名の指定"をクリック

"列名の指定"をクリック
25

"車体金額"をクリック

"車体金額"をクリック
26

"OK"をクリック

"OK"をクリック
27

"速度重視"をクリック

"速度重視"をクリック
28

"実行"をクリック

"実行"をクリック
29

結果を確認

「精度評価」を見ると”Great!”なので、予測誤差が小さいという評価がされています。(活用シーンに応じてこの評価は変わると思いますが)

結果を確認
30

結果を確認

「期待平均絶対相対誤差[MAPE]」が約0.149...、つまり約"15%"程度の誤差で車体金額が予測できるモデルができたことがわかります。

結果を確認
31

結果を確認

「過学習リスク」が"8"ということでやや高めですが、学習に用いたデータ行数が少ないため致し方なしとしておきます。

結果を確認
32

結果を確認

モデル構築に採択されたアルゴリズムは"CatBoost"であることがわかります。

結果を確認
33

ボニートくんアイコンをクリック

ボニートくんアイコンをクリック
34

"精度検証結果"をクリック

"精度検証結果"をクリック
35

"精度検証結果"を確認

改めてこのモデルは、"15%"程度の予測誤差が期待できる性能であることがわかります。

"精度検証結果"を確認
36

"精度検証結果"を確認

値にすると"2,153"程度の誤差がでることがわかります。

"精度検証結果"を確認
37

"精度検証結果"を確認

精度分解表を確認すると、目的変数が7,215以下のデータが最も平均絶対相対誤差[MAPE]が高い。

つまり、低価格帯の車の予測が誤差が大きい、予測しづらいことがわかります。

"精度検証結果"を確認
38

"プロジェクトに戻る"をクリック

"プロジェクトに戻る"をクリック
39

ボニートくん"機械が重視したデータ"をクリック

ボニートくん"機械が重視したデータ"をクリック
40

"機械が重視したデータ"を確認

最も機械が重視した列が"ホイールベースの長さ-車体の長さ"、つまり車体前後オーバーハングの長さが最も金額に影響を与えていることが分かります。

"機械が重視したデータ"を確認
41

"観察したい列を選択"をクリック

"観察したい列を選択"をクリック
42

"ホイルベースの長さ-車体の長さ"をクリック

"ホイルベースの長さ-車体の長さ"をクリック
43

グラフを確認

"ホイルベースの長さ-車体の長さ"の値の範囲のうち

・値が小さい=金額が安いと予測(赤)

・値が大きい=金額が高いと予測(青)

がわかり、高級車ほど前後オーバーハングが長いという直感に反しない解釈ができます。

グラフを確認
44

"プロジェクトに戻る"をクリック

"プロジェクトに戻る"をクリック
45

ボニートくん"学習プロセス"をクリック

ボニートくん"学習プロセス"をクリック
46

"学習プロセス"を確認

内部でどういう処理がされ、性能評価がされたのかを確認できます。

精度検証については、

  1. データを内部で2つに分割

  2. 112行を前処理してランダムフォレストでモデルを構築

  3. 48行を予測して、精度検証結果を生成

していることがわかります。

"学習プロセス"を確認
47

"前処理後データ"を確認

実際に学習に利用されたデータを確認できます。

ボニートくん"機械が重視したデータ"にて、最も重要だった列"ホイルベースの長さ-車体の長さ"も確認できます。

"前処理後データ"を確認
48

"観察したい列を選択"をクリック

"観察したい列を選択"をクリック
49

"ホイルベースの長さ-車体の長さ"をクリック

"ホイルベースの長さ-車体の長さ"をクリック
50

"ホイルベースの長さ-車体の長さ"の成り立ちを確認

確認すると

  1. 欠損値を予測して補完

  2. 特徴量生成

  3. boxcox変換

して生成されたことが分かります。

"ホイルベースの長さ-車体の長さ"の成り立ちを確認
51

"プロジェクトに戻る"をクリック

"プロジェクトに戻る"をクリック
52

ボニートくん"精度検証結果"をクリック

ボニートくん"精度検証結果"をクリック
53

"精度検証結果"を確認

"ドアの枚数"が最も予測精度に影響を与えていることが確認できます。

"精度検証結果"を確認
54

"観察したい列を選択"をクリック

"観察したい列を選択"をクリック
55

"ドアの枚数"をクリック

"ドアの枚数"をクリック
56

"精度を下げている要因"を確認

"four"=4枚ドアの車は予測精度を下げていることが分かります。

つまり、大衆車は金額予測するのが難しいので、他に大衆車を判別するためのデータを追加する必要があると言えます。

"精度を下げている要因"を確認
57

"精度を上げている要因"を確認

"two"=2枚ドアの車は予測精度を上げていることが分かります。

つまり、大衆車ではないスペシャリティな車は予測しやすいことがわかります。

"精度を上げている要因"を確認
58

"プロジェクトに戻る"をクリック

"プロジェクトに戻る"をクリック
59

"教師あり学習による予測"をクリック

"教師あり学習による予測"をクリック
60

"モデルで予測値算出"をクリック

構築したモデルで別のデータを予測できるかを検証します。

"モデルで予測値算出"をクリック
61

"ランダムにデータを分割"ノードの右出力を"モデルで予測値算出"の右入力に接続

"ランダムにデータを分割"ノードの右出力を"モデルで予測値算出"の右入力に接続
62

"実行"をクリック

"実行"をクリック
63

データの最も右に"予測値"列が追加されたことを確認

データの最も右に"予測値"列が追加されたことを確認
64

"予測値算出"をクリック

元データの車体価格と予測した価格の誤差を検証し、構築したモデルが正しく予測できているかを確認します。

"予測値算出"をクリック
65

"数値予測"をクリック

"数値予測"をクリック
66

"列を選択"をクリック

"列を選択"をクリック
67

"車体金額"をクリック

"車体金額"をクリック
68

"列を選択"をクリック

"列を選択"をクリック
69

"予測値"をクリック

"予測値"をクリック
70

"列選択"をクリック

"列選択"をクリック
71

選択モードをクリック

選択モードをクリック
72

"次を削除"をクリック

"次を削除"をクリック
73

"列名の指定"をクリック

"列名の指定"をクリック
74

"予測値"をクリック

"予測値"をクリック
75

"OK"をクリック

"OK"をクリック
76

"精度指標"をクリック

"精度指標"をクリック
77

"平均絶対相対誤差[MAPE]"をクリック

"平均絶対相対誤差[MAPE]"をクリック
78

"実行"をクリック

"実行"をクリック
79

結果を確認

精度評価は"Great!"なので、構築したモデルで別データを予測しても、良い精度が得られたことがわかります。

結果を確認
80

結果を確認

別データに対しても、約13%の誤差で車体価格が予測できたことがわかります。

結果を確認
Well done!
Create how-to guides like this in a snap. Get Tango now.