Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本経済新聞社におけるWandBの活用例

Masaki AOTA
October 11, 2023

 日本経済新聞社におけるWandBの活用例

日本経済新聞社では多くのデータを保有し、そこから価値を生み出すために様々な研究開発を行っています。 本講演では、日本経済新聞社で行われている研究開発の事例やWandBの活用例をご紹介します。活用例は、論文執筆、自然言語処理、アルゴリズム探索、画像生成など多岐にわたるトピックを含みます。研究開発上の課題点とWandBがどのように問題解決に一役買ったかをご紹介します。

- 発表者紹介
- 日本経済新聞社の紹介
- WandBの活用例
- WandBを用いた学術研究の実験管理
- WandBを用いた画像圧縮アルゴリズムの探索
- WandBを用いた動画像生成フロー管理
- まとめ

Masaki AOTA

October 11, 2023
Tweet

More Decks by Masaki AOTA

Other Decks in Programming

Transcript

  1. 本発表の概要 2 • 発表者紹介 • 日本経済新聞社の紹介 • WandBの活用例 ◦ WandBを用いた学術研究の実験管理

    ◦ WandBを用いた画像圧縮アルゴリズムの探索 ◦ WandBを用いた動画像生成フロー管理 • まとめ
  2. 発表者紹介 3 青田 雅輝 • 日経イノベーション・ラボ (研究開発部隊) ◦ 業務では画像系が多い ◦

    SQL書いたり、生存分析的なことも ◦ 連名の山田、石原と同部署 • 趣味 ◦ 自然言語処理でKaggle Master。AtCoder水色 ◦ 最近は音楽生成が熱い
  3. 扱うデータセット 6 • ユーザに関する情報 ◦ 多くのサービスで共通の「日経 ID」を導入し、属性情報や 行動ログを記録 ◦ 独自のリアルタイムデータ処理基盤「Atlas」を構築

    ◦ 2010年に電子版を提供開始、日経ID会員数は1千万以上 • コンテンツに関する情報 ◦ 記事データや企業情報を取得できるAPIが充実 ◦ 記事データは約40年分、紙面画像データは147年分存在
  4. • 日経では、中長期的な技術課題を見据えた学術研 究活動にも挑戦中(発表文献) • マルチモーダル情報でニュース記事のクリック率 を予測した研究を例に、WandBの活用事例を紹介 Shotaro Ishihara, and Yasufumi

    Nakama (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. In Proc. of Computation + Journalism Conference 2022. WandBを用いた学術研究の実験管理 9
  5. • CTRの一対比較の性能を評価するための記録 ◦ モデルのハイパーパラメータや特徴量の設定値 ◦ 用いた目的関数(Root Mean Square Errorや Margin

    Ranking Lossなど)や多数の評価関数 (正答率、F値など) • 定性的な考察のため、入力した画像・見出しや、 BERTのアテンションも可視化 全ての実験結果をWandBで管理 12
  6. • やること ◦ 効率的な画像圧縮アルゴリズム、 パラメータの探索がしたい ◦ Not 機械学習 • どうしてやるのか?

    ◦ 日経では毎日膨大な量の画像データがユーザー に送信されているため (数十TBオーダー/day) WandBを用いた画像圧縮アルゴリズムの探索 17
  7. 再現性のある動画像生成が可能に 26 • ControlNet + LoRA + Diffusionで、 Promptと各種ハイパーパラメータが同一ならほぼ 同じ画像が出てくる→同一性、再現性が確保

    • あるシーンの修正が必要だとして、パラメータを 呼び出して微修正することで簡単に対処可能に • オリジナルLoRAのトレーニング状況の確認にも