Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BigQueryMLハンズオン勉強会

yaginuuun
November 09, 2018

 BigQueryMLハンズオン勉強会

11/9 ハンズオン勉強会

yaginuuun

November 09, 2018
Tweet

More Decks by yaginuuun

Other Decks in Technology

Transcript

  1. 学習のプロセス 線形回帰 y = ax1 + bx2 + cx3 +

    dx4 + e a~d:最適化された重み 重みが格納された配列 = モデル
  2. 機械学習モデルとは? 具体例:コースの完了率 y = ax1 + bx2 + cx3 +

    d 1ヶ月以内の完了率 コースの長さ コースの難易度 1動画の長さ 説明変数の重みが分かっていれば、新しいコースのリリース前にコース 完了率を予測できる
  3. データの中身 - 目的変数 - medv : 区画の家の値段の中央値(/1000$) - 説明変数(13個): -

    crim : 犯罪発生率 - zn : 住宅地の割合 - indus : 非小売業種の割合 - chas : チャールズ川の河川境界線かどうか - nox : 窒素酸化物濃度 - rm : 住居あたりの部屋数 - age : 1940年以前に建設された建物の割合 - dis : 5つのボストン雇用センターまでの距離の加重平均 - rad : 高速道路へのアクセスの良さ - tax : 1万ドルあたりの固定資産税率 - ptratio : 生徒と教師の比率 - black : 黒色人種居住者の割合 - lstat : 低所得者の割合
  4. モデルの評価 出力される評価指標: - mean_absolute_error:平均絶対値誤差 - mean_squared_error:平均二乗誤差 - mean_squared_log_error:平均二乗対数誤差 - median_absolute_error:絶対値誤差の中央値

    - r2_score:決定係数 - explained_variance:因子寄与 平均二乗誤差:データに対するズレ → 低い方が良い 決定係数:データに対する当てはまり → 1に近い方が良い
  5. 分類:アイリスデータの分類 - 特徴量: - sepal length(cm) - sepal width(cm) -

    petal length(cm) - petal width(cm) - クラス: - Setosa - Versicolour - Virginica
  6. BigQueryMLの微妙なところ パラメータサーチがしづらい ハイパーパラメータ:人間が設定する必要のあるパラメータ (例)最適なパラメータAを探したい場合: A = 0, 1, 2, 3,

    4, 5, 10, ...に対しモデルを作成し精度を計算 最も精度の高いパラメータの値が最適と判断、採用 しかし、BigQueryMLではループ処理をサポートしていないため、不可能