Upgrade to Pro — share decks privately, control downloads, hide ads and more …

不動産情報サービスの研究開発における共有データ資源 / Shared data resourc...

不動産情報サービスの研究開発における共有データ資源 / Shared data resources in research and development of real estate information services

Kiyota Yoji, Ph.D.

February 28, 2024
Tweet

More Decks by Kiyota Yoji, Ph.D.

Other Decks in Technology

Transcript

  1. 清⽥ 陽司 博⼠(情報学) 株式会社LIFULL 主席研究員 1975年 福岡県⽣まれ 2004年 京都⼤学⼤学院情報学研究科 博⼠課程修了

    2004-2012年 東京⼤学情報基盤センター 助⼿・助教・特任講師 2007-2011年 株式会社リッテル 上席研究員・取締役CTO(共同起業) 2011年- 株式会社LIFULL 主席研究員(バイアウト) 関⼼分野: ⾃然⾔語処理応⽤ → 検索・推薦 → 情報リテラシー (図書館) → ⽣活領域のAI研究 (不動産、介護 etc.) → 業界横断のAI社会実装 (医療、教育、⾦融 etc.) 主な対外的活動 ⼈⼯知能学会 編集委員⻑ (2020-2022)/情報科学技術協会(INFOSTA)会⻑ (2022-)
  2. 国⽴情報学研究所 情報学研究データリポジトリ (NII-IDR) LIFULL HOMEʼSデータセット • 2015年11⽉より提供開始 • データセットの内容 •

    スナップショット • 2015年8⽉現在の全賃貸物件 データ • 上記に紐付く画像データ • ⽉次データ • 2015年7⽉〜2017年6⽉の24ヶ ⽉分 • 緯度・経度が付与
  3. 共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル

    や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)
  4. 共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル

    や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)
  5. 共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル

    や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)
  6. 共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル

    や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)
  7. ILSVRCと深層学習の発展 Saeidi, Mahmoud & Arabsorkhi, Abouzar. (2022). A novel backbone

    architecture for pedestrian detection based on the human visual system. The Visual Computer. 38. 10.1007/s00371-021-02280-6.
  8. 共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル

    や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)
  9. 共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル

    や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)
  10. 共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル

    や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)
  11. …But platforms like Twitter and Reddit want to be paid

    for this data. In April, Reddit's chief executive Steve Huffman told the New York Times that he was unhappy with what AI companies were doing. "The Reddit corpus of data is really valuable," he said. "But we don't need to give all of that value to some of the largest companies in the world for free."
  12. 共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル

    や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)
  13. ⺠間企業によるデータ資源共有の課題 • データを利⽤したい研究者とデータを提供したい⺠間企業の担 当者が互いを⾒つけるための体系的な⼿段が存在しない • データを提供した研究者が不適切な利⽤を⾏った場合に、⺠間 企業にはさまざまな損失が⽣じるリスクがある • ⺠間企業側の担当者が、研究者の利⽤⽬的と意義を解釈し、⾃ 社にとって利益になること、また不利益が⽣じないことを社内

    で説明し、経営者や事業部⾨の理解を得なければならない • ⺠間企業にとっては、個々の研究者の要望に対応するための⼿ 間が過重な負担となる ⼤⼭ 敬三, ⼤須賀 智⼦. 国⽴情報学研究所における研究⽤データセットの共同利⽤. 情報管理, Vol. 59, No. 2, pp. 105-112(2016)
  14. データセット提供の意義 • 不動産・住まい探し分野の研究活性化 • 不動産・住まい探しに関する研究が活発になることで、今までにない住まいの探し ⽅など、新たなイノベーションが⽣まれてくることを期待 • 産学連携の機会創出 • 共通のデータセットを産学間で共有することによって、共同研究の取り組みを加速

    するとともに、産学の垣根を越えて不動産・住まい探し分野にフォーカスする研究 コミュニティの創出を⽬指す • 情報学分野での⼈材育成への貢献 • 本データセットを⽤いたハッカソンやインターンシッププログラムを実施すること で、学⽣の⽅々が実世界のニーズに触れる機会を提供し、イノベーションに携わる 次世代の⼈材育成に貢献