Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第19回YANSシンポジウムスポンサー資料 / yans2024-nikkei

第19回YANSシンポジウムスポンサー資料 / yans2024-nikkei

第19回YANSシンポジウムにゴールドスポンサーとして参加した際の資料です。
https://yans.anlp.jp/entry/yans2024

Shotaro Ishihara

September 01, 2024
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 日本経済新聞社: 自然言語処理の研究開発と事業応用 新聞記事や企業情報,ユーザ行動などを対象に,自然言語処理や機械 学習といった技術を駆使した研究開発と事業応用を推進しています. データセット 新聞記事のテキスト・画像や企業情報, 行動ログや属性情報などのユーザ情報を 活用します.140 年以上の経済新聞発行 の歴史があり,独自のデータ収集・処理

    基盤「Atlas」も構築しています. 新聞を中核に幅広い事業を展開 • ニュース・出版・放送 • 法人向け情報サービス • 広告・文化事業・教育事業など 編集業務支援,機能開発,ユーザの行動 分析など,データサイエンス技術を駆使 した取り組みは多岐に渡ります. YANS2024 での発表 理研・NAIST との共同研究です. 9/6 11:40-12:40: ポスターセッション (4) [S4-P11] 澤田悠冶, 大内啓樹, 安井雄一郎, 寺西裕紀, 渡辺太郎, 松本裕治, 石井昌之. 企業沿革のグラフ構造化に向けた企業変遷 イベント抽出タスクの構築と分析. 社員・インターン募集 新卒・キャリア採用の社員を募集中です. 詳細は https://hack.nikkei.com/ をご参照 ください.カジュアル面談やインターンも あります. 事前学習済み言語モデル 日経電子版の記事で事前学習した言語モ デル NIKKEI Language Model を構築し, 事業応用に取り組んでいます.時系列性 能劣化や訓練データ抽出や著作権など, 実運用上の課題も議論しています. データ販売 新聞記事・POS 情報・経済指数など各種 データを販売中です.日本経済新聞の朝 夕刊の約 100 本の記事に,国立国語研究 所が形態論情報(短単位・長単位)と文 節係り受け情報を人手でアノテーション した「日本経済新聞記事オープンコーパ ス」を無償公開(研究用途)しました. https://nkbb.nikkei.co.jp/alternative/c orpus/ 取り組みの例 • 新聞記事からの固有表現抽出 • 新聞記事の日英・日中自動翻訳 • 新聞記事のクリック率・滞在時間の 予測 • 新聞記事の校正支援 • 閲覧履歴を用いた記事推薦 • 企業の業種分類 • 決算短信からの業績要因文の抽出や 記事自動生成 • 紙面ビューアーのコピー機能のため の文字領域検出と文字割当 • 新聞記事からのテロップ動画生成 • ニュース番組動画への自動タグ付け • 大規模言語モデルを用いた新聞記事 の要約支援 日経イノベーション・ラボ 2017 年に社長直轄の研究開発組織とし て設立され,事業部門とも連携しながら 様々な研究開発を推進しています. データ紹介 HACK THE NIKKEI
  2. 発表文献の抜粋 https://hack.nikkei.com/publications 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析 • 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎,

    山田剛, 進藤裕之 • 自然言語処理, 31 巻, 3号 (2024) • 日本経済新聞の新聞記事の企業名に日経企業 ID を付与したデータセットを作成し, 企業名抽出モデルと類似度ベースエンティティリンキングモデルから成るパイプラ インシステムを実装.NAIST との共同研究. User Experiments on the Effect of the Diversity of Consumption on News Services • Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima • IEEE Access, vol. 12, pp. 31841-31852 (2024) • 日経電子版の記事推薦を多様性の観点から検証.東大との共同研究. Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper • Shotaro Ishihara and Hiromu Takahashi • Proceedings of the INLG 2024 • 日経電子版記事で事前学習した GPT-2 を用いて,暗記の定量化や訓練データ抽出に 関する実証的実験を実施. Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem • Kaito Majima* and Shotaro Ishihara* (*equal contribution) • Proceedings of the CIKM 2023 • 制約充足最適化問題の枠組みで,日経電子版記事からニュース由来の単語を多く含 むクロスワードパズルを自動生成できると提案.YANS2022 奨励賞. Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English • Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai • IC2S2 2023 • 11 年分の日本語と英語の新聞記事から構築した単語分散表現を用いて,単語の意味 変化を分析. Semantic Shift Stability: Efficient Way to Detect Performance Degradation of Word Embeddings and Pre-trained Language Models • Shotaro Ishihara*, Hiromu Takahashi*, and Hono Shirai (*equal contribution) • Proceedings of the AACL 2022 • 単語の意味変化の度合いを用いて,事前学習済み言語モデルや単語分散表現の時系 列性能劣化を測る枠組みを議論.