Upgrade to Pro — share decks privately, control downloads, hide ads and more …

地球の歩き方旅行記データセット - 文章中の人物の移動軌跡を実世界の地図上に接地する -

Hiroki Ouchi
January 27, 2023

地球の歩き方旅行記データセット - 文章中の人物の移動軌跡を実世界の地図上に接地する -

デジタルアーカイブ学会ショートトーク( https://sangyo.digitalarchivejapan.org/sangyo/index.php/shorttalk/ )で使用した発表スライド(一部修正版)

Hiroki Ouchi

January 27, 2023
Tweet

More Decks by Hiroki Ouchi

Other Decks in Research

Transcript

  1. 2022年4⽉ プロジェクト始動 3 科 研 費 基盤研 究 ( B)

    研究代表者 ⼤内啓樹 研究分担者 進藤裕之,若宮翔⼦,松⽥裕貴 研究協⼒者 東⼭翔平,⼤友寛之,⼭本和太郎, 井⼿佑翼,⽮⽥竣太郎,品川政太郎, 井之上直也,荒牧英治,中村哲, 上垣外英剛,渡辺太郎 https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-22H03648/ 「⽂章中の⼈物の移動軌跡を 実世界の地図上に接地する ための基礎研究とその応⽤」
  2. まずはデータセットの実例を⾒てみよう 「旅⾏記」と「旅スケジュール」 5 「旅⾏記」の実例 会津若松へ向かう磐越西線の接続を考慮して選んだ やまびこ203号はE5系での運転でした。何度も乗って いるE2系よりも座席が広く感じ、快適な移動でした。 ・・・ 会津若松駅から快速あいづ4号に乗車し、郡山へ向 かいました。

    会津若松は晴れ間がありましたが、山を上るにつれ て雲が増えて行き、途中から雨が降り出しました。天 気予報通りでしたが、今回の旅行は暖かい2日間で 移動時間を除いて雨に降られることがなかったのは ラッキーでした。 1日目 2021年10月15日(金) 05:40 - 05:50 自宅 05:50 - 05:53 最寄駅 ・・・ 15:33 - 23:59 庄助の宿 瀧の湯 2日目 2021年10月16日(土) 00:00 - 09:25 庄助の宿 瀧の湯 09:25 - 09:32 東山温泉入口 (瀧の湯前)バス停 ・・・ 17:33 - 17:38 最寄駅 17:38 - 17:45 自宅 「旅スケジュール」の実例
  3. 背景 なぜ「⽂章」データを対象とするのか? 9 n GPSデータで⼗分では? n ⼈間の位置を把握するだけならGPSデータで事⾜りる n しかし「⼈間」と「場所」の相互関係を捉えるのはむずかしい n

    「⽂章」にはそういった情報も書かれる 場所における⾏為 場所に対する価値付与 場所から受ける印象や感覚 場所 ⼈間 ⽂章 (テキスト) 物質世界 情報世界
  4. 背景 なぜ「旅⾏記」を対象とするのか? 10 n 「⼈間」と「場所」の関係が書かれる典型的な⽂章が「旅⾏記」 n よくある視座:「観光客」と「観光地」の関係を探求 n 我々の視座:「⼈間」と「場所」を例化したものが「観光客」と「観光地」 場所

    ⼈間 ⽂章 物質世界 情報世界 観光客 観光地 旅⾏記 ひとつの例として捉える 「観光客」と「観光地」の関係を題材として 「⼈間」と「場所」の関係を掘り下げていく
  5. 背景 本データセットの学術的意義 11 n これまでの課題:共通利⽤可能な旅⾏記データがなかった n それぞれの研究者がウェブ上の旅⾏記投稿サイトなどから独⾃に取得した 旅⾏記データを⽤いることが多かった n そのため、研究の再現や実験結果の公平な⽐較分析が困難であった

    n 本データセット:⼀定条件下での利⽤機会についてオープン化 n 研究に使⽤したデータが特定可能になる → 研究の透明性・再現性の担保 n 他の研究との⽐較も格段に容易となる → 研究の知⾒の蓄積が加速 オープンサイエンスの促進 [⼤須賀ら 2021 https://www.ipsj.or.jp/dp/contents/publication/46/TR0202-05.html]
  6. ⼤きな⽬標・⽅向性 「地理空間情報×⾃然⾔語処理」を拡⼤ 13 n 地理と⾔語が交差する研究開発領域を盛り上げたい • 仲間を集めてオープンに知⾒を共有する「場」を作る • 「地理と⾔語」のコミュニティの創出 •

    Slackワークスペース Geography&Language を開始 ⾔語は⾯⽩く、地理も⾯⽩い。 両⽅合わさればもっと⾯⽩い。 参加リンク https://join.slack.com/t/geographylanguage/shared_invite/ zt-1ml87xoli-a2_aacnNjLUGsPYyYi1rbQ
  7. 我々が取り組むシンボルタスク 「移動軌跡接地」タスク 14 出⼒:移動軌跡の描画 午前8時 近鉄奈良駅 到着。 ホテルニューわかさに 9時 チェックイン予定。

    時間に余裕があったので、 途中のスタバで ⼀服。 30分過ごしてから 店を出て、 ホテルにチェックインしました。 ⼊⼒:⽂章 ⽂章中の⼈物が辿った「軌跡」を読み取り地図上に再構成 ⾃然⾔語処理 深層学習 地理情報処理 近鉄奈良駅 スターバックス 奈良公園店 ホテル ニューわかさ 2 3 1
  8. 「移動軌跡接地」タスクの特徴 複合的な処理が必要となる 15 n 各 場所表現 の認識 n 同じ場所を指す表現の認識 n

    各場所を地図上に接地 n 訪問したか否かの判定 n 場所の訪問順序の認識 午前8時 近鉄奈良駅 到着。 ホテルニューわかさに 9時 チェックイン予定。 時間に余裕があったので、 途中のスタバで ⼀服。 30分過ごしてから 店を出て、 ホテルにチェックインしました。 Visit PlanToVisit Visit Visit Visit ① ② ② ③ ⼊⼒:⽂章 各処理のためのツールを開発して⼀般公開をめざす 地図データベース OpenStreetMap Visit/NotVisit/ PlanToVisit ①,②,...
  9. 「移動軌跡接地」タスクの技術的チャレンジ どちらのスタバが正しい? 16 ⽂章中の「⽂脈」と地図上の「位置関係」を同時に考慮した技術を洗練する 近鉄奈良駅 スターバックス 猿沢池店 スターバックス 奈良公園店 ホテル

    ニューわかさ へ⾄る道 どちらのスタバ? 午前8時 近鉄奈良駅 到着。 ホテルニューわかさに 9時 チェックイン予定。 時間に余裕があったので、 途中のスタバで ⼀服。 30分過ごしてから 店を出て、 ホテルにチェックインしました。 Visit Visit Visit Visit ① ② ② ③ ⼊⼒:⽂章 PlanToVisit