第19回YANSシンポジウムスポンサー資料 / yans2024-nikkei

日本経済新聞社：自然言語処理の研究開発と事業応用新聞記事や企業情報，ユーザ行動などを対象に，自然言語処理や機械学習といった技術を駆使した研究開発と事業応用を推進しています．データセット新聞記事のテキスト・画像や企業情報，行動ログや属性情報などのユーザ情報を活用します．140 年以上の経済新聞発行の歴史があり，独自のデータ収集・処理
基盤「Atlas」も構築しています．新聞を中核に幅広い事業を展開 • ニュース・出版・放送 • 法人向け情報サービス • 広告・文化事業・教育事業など編集業務支援，機能開発，ユーザの行動分析など，データサイエンス技術を駆使した取り組みは多岐に渡ります． YANS2024 での発表理研・NAIST との共同研究です． 9/6 11:40-12:40: ポスターセッション (4) [S4-P11] 澤田悠冶, 大内啓樹, 安井雄一郎, 寺西裕紀, 渡辺太郎, 松本裕治, 石井昌之. 企業沿革のグラフ構造化に向けた企業変遷イベント抽出タスクの構築と分析. 社員・インターン募集新卒・キャリア採用の社員を募集中です．詳細は https://hack.nikkei.com/ をご参照ください．カジュアル面談やインターンもあります．事前学習済み言語モデル日経電子版の記事で事前学習した言語モデル NIKKEI Language Model を構築し，事業応用に取り組んでいます．時系列性能劣化や訓練データ抽出や著作権など，実運用上の課題も議論しています．データ販売新聞記事・POS 情報・経済指数など各種データを販売中です．日本経済新聞の朝夕刊の約 100 本の記事に，国立国語研究所が形態論情報（短単位・長単位）と文節係り受け情報を人手でアノテーションした「日本経済新聞記事オープンコーパス」を無償公開（研究用途）しました． https://nkbb.nikkei.co.jp/alternative/c orpus/ 取り組みの例 • 新聞記事からの固有表現抽出 • 新聞記事の日英・日中自動翻訳 • 新聞記事のクリック率・滞在時間の予測 • 新聞記事の校正支援 • 閲覧履歴を用いた記事推薦 • 企業の業種分類 • 決算短信からの業績要因文の抽出や記事自動生成 • 紙面ビューアーのコピー機能のための文字領域検出と文字割当 • 新聞記事からのテロップ動画生成 • ニュース番組動画への自動タグ付け • 大規模言語モデルを用いた新聞記事の要約支援日経イノベーション・ラボ 2017 年に社長直轄の研究開発組織として設立され，事業部門とも連携しながら様々な研究開発を推進しています．データ紹介 HACK THE NIKKEI

発表文献の抜粋 https://hack.nikkei.com/publications 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析 • 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎,
山田剛, 進藤裕之 • 自然言語処理, 31 巻, 3号 (2024) • 日本経済新聞の新聞記事の企業名に日経企業 ID を付与したデータセットを作成し，企業名抽出モデルと類似度ベースエンティティリンキングモデルから成るパイプラインシステムを実装．NAIST との共同研究． User Experiments on the Eﬀect of the Diversity of Consumption on News Services • Atom Sonoda, Fujio Toriumi, and Hiroto Nakajima • IEEE Access, vol. 12, pp. 31841-31852 (2024) • 日経電子版の記事推薦を多様性の観点から検証．東大との共同研究． Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper • Shotaro Ishihara and Hiromu Takahashi • Proceedings of the INLG 2024 • 日経電子版記事で事前学習した GPT-2 を用いて，暗記の定量化や訓練データ抽出に関する実証的実験を実施． Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem • Kaito Majima* and Shotaro Ishihara* (*equal contribution) • Proceedings of the CIKM 2023 • 制約充足最適化問題の枠組みで，日経電子版記事からニュース由来の単語を多く含むクロスワードパズルを自動生成できると提案．YANS2022 奨励賞． Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English • Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai • IC2S2 2023 • 11 年分の日本語と英語の新聞記事から構築した単語分散表現を用いて，単語の意味変化を分析． Semantic Shift Stability: Eﬃcient Way to Detect Performance Degradation of Word Embeddings and Pre-trained Language Models • Shotaro Ishihara*, Hiromu Takahashi*, and Hono Shirai (*equal contribution) • Proceedings of the AACL 2022 • 単語の意味変化の度合いを用いて，事前学習済み言語モデルや単語分散表現の時系列性能劣化を測る枠組みを議論．

第19回YANSシンポジウムスポンサー資料 / yans2024-nikkei

第19回YANSシンポジウムスポンサー資料 / yans2024-nikkei

Shotaro Ishihara

More Decks by Shotaro Ishihara

Other Decks in Research

Featured

Transcript

発表文献の抜粋 https://hack.nikkei.com/publications 企業名の類似度に基づく日経企業IDリンキングシステムの構築と分析 • 澤田悠冶, 安井雄一郎, 大内啓樹, 渡辺太郎, 石井昌之, 石原祥太郎,