特徵工程是在建置數據模型時相當重要也最藝術的部分,能幫助模型捕捉解釋變數和目標變數間的聯繫。而藝術的地方在於進行特徵工程相當大程度取決於研究者對於領域知識、專案需求的理解,沒有一體適用的方法
在這次的演講中我將以 CakeResume 上的職缺資料為例,和大家分享我建置的薪資預測模型,以及如何經過一系列的特徵工程後,將模型的效度(R^2) 從原本的 0.06 逐步提升至 0.51
要強調這次分享的重點並不在於模型的效度本身,而是該如何反覆分析與診斷模型的問題,有目的性的根據遇到的問題來進行對應的特徵工程,讓模型效度能滿足業務端的需求
#sciwork 2023 conference