Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データベース01: データベースを使わない世界
Search
Y. Yamamoto
PRO
April 14, 2025
Science
1
530
データベース01: データベースを使わない世界
1. ガイダンス
2. データベースを使わない世界
講義ノートURL
https://dbnote.hontolab.org/content/introduction/01.html
Y. Yamamoto
PRO
April 14, 2025
Tweet
Share
More Decks by Y. Yamamoto
See All by Y. Yamamoto
機械学習 - pandas入門
trycycle
PRO
0
27
機械学習 - 授業概要
trycycle
PRO
0
96
ビッグデータ × AI = DX?
trycycle
PRO
0
540
名古屋市立大学データサイエンス学部 秋のオープンキャンパス模擬授業20231111
trycycle
PRO
0
8.4k
データサイエンス入門 - ビッグデータとAI
trycycle
PRO
0
670
2022年度データアナリティクスII-第4回-20220502
trycycle
PRO
0
430
2022年度データアナリティクスII-第3回-20220425
trycycle
PRO
0
330
2022年度データアナリティクスII-第2回-20220418
trycycle
PRO
0
570
2022年度データアナリティクスII-第1回-20220411
trycycle
PRO
0
400
Other Decks in Science
See All in Science
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
tagtag
1
140
03_草原和博_広島大学大学院人間社会科学研究科教授_デジタル_シティズンシップシティで_新たな_学び__をつくる.pdf
sip3ristex
0
270
地質研究者が苦労しながら運用する情報公開システムの実例
naito2000
0
140
学術講演会中央大学学員会大分支部
tagtag
0
130
SciPyDataJapan 2025
schwalbe10
0
170
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
2
740
FOGBoston2024
lcolladotor
0
170
As We May Interact: Challenges and Opportunities for Next-Generation Human-Information Interaction
signer
PRO
0
430
Valuable Lessons Learned on Kaggle’s ARC AGI LLM Challenge (PyDataGlobal 2024)
ianozsvald
0
270
メール送信サーバの集約における透過型SMTP プロキシの定量評価 / Quantitative Evaluation of Transparent SMTP Proxy in Email Sending Server Aggregation
linyows
0
830
オンプレミス環境にKubernetesを構築する
koukimiura
0
180
ほたるのひかり/RayTracingCamp10
kugimasa
1
590
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Java REST API Framework Comparison - PWX 2021
mraible
29
8.5k
Into the Great Unknown - MozCon
thekraken
36
1.7k
Adopting Sorbet at Scale
ufuk
76
9.3k
Optimising Largest Contentful Paint
csswizardry
35
3.2k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
22
2.6k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Building Applications with DynamoDB
mza
94
6.3k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
28
1.6k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Transcript
“データベース”を使わない世界 ⼭本 祐輔 名古屋市⽴⼤学 データサイエンス研究科
[email protected]
第1回 データベース
ガイダンス 1 授業をどう進めるか?
データベースと言えば 何を思い浮かべる?
⼀般⼈が思い浮かべるデータベース 新聞データベース 画像出典: https://www.pokemon.co.jp/ex/sun_moon/pokemon/ ポケモン図鑑的 たくさんのデータの集まりや図鑑的なもの
情報科学屋にとってのデータベース データベース管理システムあるいは それによって管理されたデータの集合 画像出典: https://en.wikipedia.org/
授業⽬的 データベース技術 (特に関係データベース) ⼤規模なデータを効率よく管理・処理するための データ分析者が最低限知っておくべき を学ぶ
この授業で学ぶこと lデータベースの概念 l関係データモデル l関係データベースの問い合わせ方法 l関係データベースの設計 l索引づけ lビッグデータ時代のデータベース
この授業で学ばないこと l前提知識の復習(集合と写像) l関係代数 & 関係論理 l問い合わせ最適化 lデータ格納方式 lトランザクション(障害回復,並列処理) 関係データベース操作 の理論的基礎
ハードウェアに近い話 データベースの内部処理 上記内容はデータエンジニアなら知っておくべき内容!!
回 実施日 トピック 1 04/14 ガイダンス:データベースを使わない世界 2 04/21 データベースの概念 3
04/28 関係データモデル 4 05/12 SQL (1/3) 5 05/19 SQL (2/3) 6 05/26 SQL (3/3) 7 06/02 SQL演習 – レポート課題1 8 06/09 実体関連モデル (1/3) 9 06/16 実体関連モデル (2/3) 10 06/23 実体関連モデル (3/3) 11 06/30 正規化 (1/2) 12 07/07 正規化 (2/2) 13 07/14 データベース設計演習 – レポート課題2 14 07/21 索引付け 15 07/28 授業の振り返り or 発展的話題 16 08/04 期末試験 授業計画 11 関係データベース「操作」 関係データベース「設計」
授業の進め⽅ 理解を深める クイズや演習 0:00 1:30 0:60 座学 細かな練習を通じて DB技術を体得 データベースの理論や技術
の理解 (プログラミングスキルは不要)
授業で使⽤するもの(1/2) 配布スライド データベースの講義ノート 13
授業で使⽤するもの(2/2) 14 Google Colaboratory - データベース問合わせ練習⽤ - ブラウザで動く - 要Googleアカウント
draw.io - データベース設計練習⽤ - ブラウザで動く - ユーザアカウントは不要
成績評価 授業中に課す課題(レポート): 40% ・SQL演習(1回) + データベース設計(1回) ・授業内に設けた演習時間(+⾃宅)で回答を作成 期末試験: 60% ・授業中に出題範囲を宣⾔
・⾃分で作成した資料を持ち込み「可」とする予定
参考図書(1/2) 画像出典:https://www.ohmsha.co.jp/book/9784274223730/ 画像出典: https://www.ohmsha.co.jp/book/9784274225161/ 16
参考図書(2/2) https://www.saiensu.co.jp/search/?isbn=978-4-7819-1390-2&y=2017 17
講義ノート https://bit.ly/3xqTSds l 参考図書を踏まえて作成 l コラムや練習問題が充実 l 無料
連絡⽅法 担当教員メールアドレス
[email protected]
授業連絡 Microsoft Teams 学務情報システム データサイエンス学部LMS みなさん,どれを連絡⼿段として希望しますか?
データベースを使わない世界 2 データベースを使う必要性はどこにある?
ある⼩売店のお話(1/3) 山畑さんは家族で小さな小売店を営んで いる. 個人経営ながら山畑さんのお店は 繁盛している. とはいえ,街には大手 チェーン小売店が進出してきており,この まま順調に経営を続けられるかは不安だ. 何か手を打たなければならない. 2020年の4月,山畑さんは念願のショッ
ピングサイトを立ち上げた. 言うまでもな い.ショッピングサイトを立ち上げたのは, オンラインにも顧客獲得の機会を求める ためだ. サイトは順調に立ち上がり,注文 もポツポツ入ってきている. ⼩売店店主の ⼭畑さん
ある⼩売店のお話(2/3) ところで,最近世の中では「データサイエンス」なるもの が注目を集めているらしい. データを活かせばビジネスチャンスが広がる,とのことだ. 山畑さんは,Excelシートに入力しつつあった販売履歴 を分析してみようと思い立った. ⼩売店店主の ⼭畑さん ビジネス インサイト
ある⼩売店のお話(3/3) Excelシートには,いつ,誰が,何を,いくらで購入したか の情報が記録されている. ⼩売店店主の ⼭畑さん ビジネス インサイト ショッピングサイトは立ち上がったばかりであるため, Excelシートには200行しかデータが入っていないが, これからデータが貯まっていけば,売り上げを増やす
ための課題が見えるかもしれない!!
課題1 & 2 課題1 以下のURLから⼭畑さんが使っている Excelファイルをダウンロードし,中⾝を確認せよ https://bit.ly/4awIEms 課題2 Excelファイルを使って「岡⽥ 真綾」という⼈物が
何回買い物をしていたかを数えよ
課題3〜5 オートフィルタ機能を使って,「ビタミン補助剤」 を購⼊している⼈をピックアップせよ 課題3 Excel関数のSUMを⽤いて,現時点での総売上⾦額 を計算せよ. 課題4 Excelのピボットテーブル機能を使って,集計期間 中に「最も購買回数が多かった商品」「最も売上⾦ 額の合計が⼤きかった商品」のそれぞれを求めよ
課題5
⼭畑さんのお話の続き(1/3) ⼩売店店主の ⼭畑さん ショッピングサイト⽴ち上げ以降,順調に利⽤者数も 増えていった. やはりメディアに取り上げられたの が⼤きかったのだろう. あのタイミングで認知度が ⼀気に上がり,サイト利⽤頻度も加速度的に増えて いった.
それに伴い,サイト運営に関わるスタッフ も増員した. 増員されたスタッフ
⼭畑さんのお話の続き(2/3) 販売履歴の管理は当初⼭畑さんが⼀⼈で担当してい たが,さすがに⼀⼈では捌ききれなくなった. そこ で,ある時点から数名体制で販売履歴の記録をする ことになった. これまで販売履歴の管理に使って きたExcelシートをクラウドストレージに置き, 販売 履歴記録のスタッフのPC間で同期を取るようにした.
こうすることで,同じExcelファイルの上で記録を つけられるようにしたのである.
⼭畑さんのお話の続き(3/3) ⼗分に販売履歴データが蓄積されたと判断した⼭畑 さんは,いよいよ⼤規模に販売履歴データを分析 しようと思った. シートを開き⾏数を数えてみると その数90万⾏以上! データの数に⼩躍りした⼭畑さん. 早速Excelシートでの分析に詳しいスタッフと⼀緒に データ分析に取りかかった…
課題1 & 2 課題1 以下のURLから⼭畑さんが使っている Excelファイルをダウンロードし,中⾝を確認せよ 完全版ファイル: https://bit.ly/3xxgWYc 課題2 Excelファイルを使って「岡⽥
真綾」という⼈物が 何回買い物をしていたかを数えよ ⼩さめファイル: https://bit.ly/4as2sHv
課題3〜5 オートフィルタ機能を使って,「ビタミン補助剤」 を購⼊している⼈をピックアップせよ 課題3 Excel関数のSUMを⽤いて,現時点での総売上⾦額 を計算せよ. 課題4 Excelのピボットテーブルを使って,集計期間中に 「最も購買回数が多かった商品」「最も売上⾦額の 合計が⼤きかった商品」のそれぞれを求めよ
課題5
お疲れ様でした シナリオ2の課題に 取り組んだ感想は? イライラしたとか,何でもOK
Excelが固まる… 日付の書き方が統一されていない… 全角数字が混じっている… 1マスに複数の商品が… 途中から数字がおかしい…?(疑心暗鬼に)
Excel vs. 情報技術屋の「データベース」 Excel § 個人用の表計算ソフト § 対象データは⽐較的⼩さい § データの管理には不向き
(正しく管理できるかは⼈に依存) “データベース” l 大規模データを効率よく処理 l データを正しく管理 l データを複数⼈/複数アプリで 同時に使うことを想定
余談)データ⼈材とその価値 技術レベル Excel使い ・Excelの関数やマクロを使う ・総合職では⼤活躍
余談)データ⼈材とその価値 Excel使い ・Excelの関数やマクロを使う ・総合職では⼤活躍 相関分析/仮説検定屋 ・Rにこだわる ・研究・開発畑なら必要 技術レベル ビジネス上の価値
余談)データ⼈材とその価値 技術レベル ビジネス上の価値 似非データサイエンティスト ・どの学部でも学べる ・AIと機械学習の区別ができない ・データサイエンティストと名乗ったはら恥ずかしい 相関分析/ 仮説検定屋 Excel使い
余談)データ⼈材とその価値 技術レベル ビジネス上の価値 機械学習ホビーイスト データがあればちょっとした 機械学習コードは書ける データサイエンティストの卵 ・情報系学部の卒業生 ・AIと機械学習の区別ができる ・中小企業でDS人材として雇われると悲劇
相関分析/ 仮説検定屋 Excel使い 似非データサイエンティスト
余談)データ⼈材とその価値 Excel使い 相関分析/ 仮説検定屋 技術レベル ビジネス上の価値 機械学習 ホビーイスト 似非データサイエンティスト 非情報系の研究開発職なら
使える人材になれる可能性あり データサイエンティストの卵
従来のデータ分析 vs. ビッグデータ分析 ビッグデータ分析 仮説発見 従来のデータ分析 仮説検証 (統計的検定・アンケート調査のような) (パターン,隠れたルールetc.) 注意)
どちらの分析も何を対象とするか(クエスチョン)は決まっていないと何も始まらない 39
余談)データ⼈材とその価値 Excel使い 相関分析/ 仮説検定屋 技術レベル ビジネス上の価値 機械学習 ホビーイスト 似非データサイエンティスト データサイエンティストの卵
ビジネス的に価値が出てくるライン
余談)データ⼈材とその価値 Excel使い 相関分析/ 仮説検定屋 技術レベル ビジネス上の価値 機械学習 ホビーイスト 似非データサイエンティスト データサイエンティストの卵
ビジネス的に価値が出てくるライン データサイエンス系学部で しっかり学ぶ価値があるライン
余談)データ⼈材とその価値 Excel使い 相関分析/ 仮説検定屋 技術レベル ビジネス上の価値 機械学習 ホビーイスト 似非データサイエンティスト +
⼤規模データ分析者 ・データベースを扱える ・⼤規模データ処理コードが書ける ・ある程度機械学習ができる 機械学習エンジニア ・データベースを扱える ・深層学習コードがかける データサイエンティストの卵 戦力になるデータ人材
余談)データ⼈材とその価値 Excel使い 相関分析/ 仮説検定屋 技術レベル ビジネス上の価値 機械学習 ホビーイスト 似非データサイエンティスト +
⼤規模データ分析者 機械学習エンジニア 戦力になるデータ人材 データサイエンティストの卵 ポイントの1つは⼤規模データを扱うスキルがあるか
データサイエンス作業の分担と職種 https://www.oreilly.com/ideas/data-engineers-vs-data-scientists データサイエンティスト データエンジニア 高度な数学・統計知識 機械学習 高度な分析技術 高度なプログラミング データベース データパイプライン
分散処理 機械学習エンジニア データラングリング 機械学習の運用 機械学習のチューニング
Excel vs. 情報技術屋の「データベース」 Excel § 個人用の表計算ソフト § 対象データは⽐較的⼩さい § データの管理には不向き
(正しく管理できるかは⼈に依存) “データベース” l 大規模データを効率よく処理 l データを正しく管理 l データを複数⼈/複数アプリで 同時に使うことを想定 ⼤規模データを扱うならデータベースを学ぶ意味は⼤いにあり
回 実施日 トピック 1 04/14 ガイダンス:データベースを使わない世界 2 04/21 データベースの概念 3
04/28 関係データモデル 4 05/12 SQL (1/3) 5 05/19 SQL (2/3) 6 05/26 SQL (3/3) 7 06/02 SQL演習 – レポート課題1 8 06/09 実体関連モデル (1/3) 9 06/16 実体関連モデル (2/3) 10 06/23 実体関連モデル (3/3) 11 06/30 正規化 (1/2) 12 07/07 正規化 (2/2) 13 07/14 データベース設計演習 – レポート課題2 14 07/21 索引付け 15 07/28 授業の振り返り or 発展的話題 16 08/04 期末試験 今後の授業 46