Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

(NII Open House 2021)ビックデータ時代のための情報の効率的な圧縮

(NII Open House 2021)ビックデータ時代のための情報の効率的な圧縮

Kazu Ghalamkari

June 18, 2021
Tweet

More Decks by Kazu Ghalamkari

Other Decks in Research

Transcript

  1. 計算機の扱う数字の箱(配列)を効率的に圧縮する どんな研究? 状況設定 計算機は,データを数の詰まった配列として扱う ビックデータ時代のための 情報の効率的な圧縮 箱が大きいと,計算機のメモリを圧迫する. そこで,箱の情報をできるだけ失わずに箱を分解する(低ランク近似) 杉山研究室 ガラムカリ和

    = 5×5×4=100 😢 分解 [1] Fast Rank Reduction for Non-negative Matrices via Mean Field Theory [Click] [2] A Closed Form Solution to Best Rank-1 Tensor Approximation via KL divergence Minimization [Click] 詳細 𝒫 [3] 平均場近似に基づく正テンソルの最良ランク1近似(人工知能学会全国大会2021) [Click] 質問はいつでもお気軽に! 5+5+4 =14😄
  2. 計算機の扱う数字の箱(配列)を効率的に圧縮する どんな研究? 状況設定 計算機は,データを数の詰まった配列として扱う ビックデータ時代のための 情報の効率的な圧縮 箱が大きいと,計算機のメモリを圧迫する. そこで,箱の情報をできるだけ失わずに箱を分解する(低ランク近似) 杉山研究室 ガラムカリ和

    = 5×5×4=100 😢 5+5+4 =14😄 分解 [1] Fast Rank Reduction for Non-negative Matrices via Mean Field Theory [Click] [2] A Closed Form Solution to Best Rank-1 Tensor Approximation via KL divergence Minimization [Click] 詳細 𝒫 [3] 平均場近似に基づく正テンソルの最良ランク1近似(人工知能学会全国大会2021) [Click] 復元 𝒫 質問はいつでもお気軽に! = × ×
  3. 計算機の扱う数字の箱(配列)を効率的に圧縮する どんな研究? 状況設定 計算機は,データを数の詰まった配列として扱う ビックデータ時代のための 情報の効率的な圧縮 箱が大きいと,計算機のメモリを圧迫する. そこで,箱の情報をできるだけ失わずに箱を分解する(低ランク近似) 杉山研究室 ガラムカリ和

    = 5×5×4=100 😢 5+5+4 =14😄 分解 [1] Fast Rank Reduction for Non-negative Matrices via Mean Field Theory [Click] [2] A Closed Form Solution to Best Rank-1 Tensor Approximation via KL divergence Minimization [Click] 詳細 𝒫 [3] 平均場近似に基づく正テンソルの最良ランク1近似(人工知能学会全国大会2021) [Click] 𝒫 復元 質問はいつでもお気軽に! = × ×
  4. 計算機の扱う数字の箱(配列)を効率的に圧縮する どんな研究? 状況設定 計算機は,データを数の詰まった配列として扱う ビックデータ時代のための 情報の効率的な圧縮 箱が大きいと,計算機のメモリを圧迫する. そこで,箱の情報をできるだけ失わずに箱を分解する(低ランク近似) 杉山研究室 ガラムカリ和

    = 5×5×4=100 😢 5+5+4 =14😄 分解 [1] Fast Rank Reduction for Non-negative Matrices via Mean Field Theory [Click] [2] A Closed Form Solution to Best Rank-1 Tensor Approximation via KL divergence Minimization [Click] 詳細 𝒫 [3] 平均場近似に基づく正テンソルの最良ランク1近似(人工知能学会全国大会2021) [Click] 𝒫 復元 質問はいつでもお気軽に! = × ×
  5. 計算機の扱う数字の箱(配列)を効率的に圧縮する どんな研究? 状況設定 計算機は,データを数の詰まった配列として扱う ビックデータ時代のための 情報の効率的な圧縮 箱が大きいと,計算機のメモリを圧迫する. そこで,箱の情報をできるだけ失わずに箱を分解する(低ランク近似) 杉山研究室 ガラムカリ和

    = 分解 [1] Fast Rank Reduction for Non-negative Matrices via Mean Field Theory [Click] [2] A Closed Form Solution to Best Rank-1 Tensor Approximation via KL divergence Minimization [Click] 詳細 𝒫 [3] 平均場近似に基づく正テンソルの最良ランク1近似(人工知能学会全国大会2021) [Click] 𝒫 誤差が小さくなるように分解 二乗誤差を最小にすることは実はとても難しい!(NP困難) 復元 質問はいつでもお気軽に!
  6. 計算機の扱う数字の箱(配列)を効率的に圧縮する どんな研究? 状況設定 計算機は,データを数の詰まった配列として扱う ビックデータ時代のための 情報の効率的な圧縮 箱が大きいと,計算機のメモリを圧迫する. そこで,箱の情報をできるだけ失わずに箱を分解する(低ランク近似) 杉山研究室 ガラムカリ和

    = 𝑖, 𝑗, 𝑘 番地に確率𝒫 𝑖, 𝑗, 𝑘 を割当てる [1] Fast Rank Reduction for Non-negative Matrices via Mean Field Theory [Click] [2] A Closed Form Solution to Best Rank-1 Tensor Approximation via KL divergence Minimization [Click] 詳細 近似後の箱の大きさ 圧縮に必要な時間 近似の不正確さ 近似後の箱の大きさ 従来より高速な低ランク近似が実現!! KL情報量最小化の最良ランク1公式 ത 𝒫𝑖𝑗𝑘 = ෍ 𝑗′=1 𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ෍ 𝑘′=1 𝐾 ෍ 𝑖′=1 𝐼 𝒫𝑖′𝑗𝑘′ ෍ 𝑖′=1 𝐼 ෍ 𝑗′=1 𝐽 𝒫𝑖′𝑗′𝑘 配列を規格化して確率として解釈する 平均場近似として低ランク近似を定式化 𝒫𝜃 𝑖, 𝑗, 𝑘 ≒ 𝑝𝜃 𝑖 𝑞𝜃 𝑗 𝑟𝜃 𝑘 同時分布 確率分布のもつ変数𝜃と期待値𝜂で分解の条件を説明. 𝒫 Ex)正規分布の分散σと平均𝜇 独立分布の積 研究のアイデア 𝒫から𝒫が一発で求まる! [3] 平均場近似に基づく正テンソルの最良ランク1近似(人工知能学会全国大会2021) [Click] 配列の中で,公式を繰り返し使用して, 高速な低ランク近似手法を実現 多体問題を一体問題に帰着する物理学の方法 ≒ 分解 𝒫 𝒫 公式で 平均場近似 𝒫 4,3,1 = 𝑝 4 𝑞 3 𝑟 1 𝑝 4 𝑞 3 𝑟 1 既存手法 復元 質問はいつでもお気軽に!