$30 off During Our Annual Pro Sale. View Details »

[Data เบ็ดเตล็ด x DataHungry] Data & AI Bootcam...

Punsiri Boonyakiat
December 07, 2024
51

[Data เบ็ดเตล็ด x DataHungry] Data & AI Bootcamp 2024

As an instructor, I hosted a 2-day offline hands-on class focusing on Data and AI technologies. Participants will learn modern tools like Docker, Apache Airflow, Google Cloud Storage, BigQuery, Gemini Code Assist, Vertex AI Agent Builder, and LINE Messaging API. The objective of the Bootcamp is to build modern data pipelines, accelerate development with GenAI tools, and build AI agents to interact with your data seamlessly

Punsiri Boonyakiat

December 07, 2024
Tweet

Transcript

  1. DATA & AI BOOTCAMP 2024 JOIN WIFI WIFI Name: Dee

    Dar Bar Guese “ตอเลย ฟรี ไมมี Password”
  2. DATA & AI BOOTCAMP 2024 Course Outline Data Foundation •

    Modern Data Stack ◦ Docker สําหรับจัดการ Environment ◦ Apache Airflow สําหรับออเคสตรา Data Pipeline • Database System ◦ MongoDB (NoSQL) สําหรับขอมูล Semi-structured ◦ PostgreSQL สําหรับขอมูลแบบ Relational • Google Cloud Platform ◦ Cloud Storage เปน Data Lake ◦ BigQuery เปน Data Warehouse พรอมใชวิเคราะห
  3. DATA & AI BOOTCAMP 2024 Interactive-Session / Active Listener ยกมือถาม

    ตอบโต้ เรียนรู้ไปด้วยกัน TODAY PRIZE🥇 WE ARE HERE TO SUPPORT 󰗞 FINISH TOGETHER 🚀
  4. DATA & AI BOOTCAMP 2024 Git Repository + VS Code

    https://github.com/wuttichai-hung/data-ai-bootcamp ** หมายเหตุ - แนะนําใหใช Github Codespace ในการทํา Lab ทั้งหมด แตสําหรับทานที่ใช Macbook หรือมี VS Code และ Docker ในเครื่องอยูแลวสามารถที่จะใชงานใน Local Enviroment ของทานได 1. กด Fork Repository
  5. DATA & AI BOOTCAMP 2024 Git Repository + VS Code

    2. กด create Fork Repository เพื่อ นํา code ของ bootcamp มาไวใน Github ของเรา
  6. DATA & AI BOOTCAMP 2024 Git Repository + VS Code

    3. ปุม Sync Fork ใชเพื่อ check วา code ของเราที่ดึงมาเปน version ลาสุดที่ตรงกับทีมสอน หากเปน version ลาสุดจะแสดงเครื่องหมายถูก
  7. DATA & AI BOOTCAMP 2024 Git Repository + VS Code

    ในกรณีที่ทีมสอนมีการ Update Code เรา สามารถกด Update branch เพื่อใหได code ใหมลาสุดได
  8. DATA & AI BOOTCAMP 2024 Start in Codespace Welcome to

    Codespace!! Now You’re Ready to Rock the Bootcamp
  9. DATA & AI BOOTCAMP 2024 Why data is important to

    Business GDP = C+I+G+(X-M) C = Consumption การบริโภคของบริษัทและ ประชาชนทั่วไป I = Investment การลงทุนจากภาคเอกชนในการทํา กิจกรรมตางๆในระบบเศรษฐกิจ G = Government Spending คาใชจายของรัฐบาล/ การลงทุนภาครัฐ X - M = Export - Import ตัวเลขการสงออกลบดวย การนําเขาถึงจะเห็นอัตราการบริโภคสุดทายที่แทจริง
  10. DATA & AI BOOTCAMP 2024 Why data is important to

    Business https://www.deloitte.com/content/dam/assets-shared/legacy/docs/analysis/2022/dttl-analytics-analytics-advantage-report.pdf
  11. DATA & AI BOOTCAMP 2024 The 4 levels of data

    maturity how data mature is your business? https://www.edq.com/blog/data-maturity-how-mature-are-you/
  12. DATA & AI BOOTCAMP 2024 Roles & Responsibility in Data

    Career • Software Engineer • System Engineer • Data Engineer • Data Analyst • Data Scientist • Analytics Engineer
  13. DATA & AI BOOTCAMP 2024 Why Docker? • Isolation •

    Lightweight • Simplicity • Workflow • Community
  14. DATA & AI BOOTCAMP 2024 Docker vs. VM Use Docker

    if:Use Docker if: • You need lightweight, scalable solutions. • You are working with microservices or cloud-native applications. • Consistency across environments is crucial. Use Virtual Machines if: • You need to run multiple OS environments. • Applications require complete isolation. • Legacy applications are involved that demand dedicated OS resources. https://k21academy.com/docker-kubernetes/docker-vs-virtual-machine/
  15. DATA & AI BOOTCAMP 2024 What is Apache Airflow ?

    Airflow is an open-source platform for developing, scheduling, and monitoring batch-oriented workflows create by Airbnb
  16. DATA & AI BOOTCAMP 2024 What is Data Pipeline? Data

    pipeline is a means of moving data from one place (the source) to a destination (such as a data warehouse). Along the way, data is transformed and optimized, arriving in a state that can be analyzed and used to develop business insights.
  17. DATA & AI BOOTCAMP 2024 What is DAG ? D

    = Direct A = Acyclic G = Graph
  18. DATA & AI BOOTCAMP 2024 Airflow Concept to Code •

    DAG - the graphical representation of your data pipeline • Operator - describes a single task in your data pipeline • Task- an instance of operator task.
  19. DATA & AI BOOTCAMP 2024 Dependencies between Tasks In Airflow,

    we commonly use the binary right shift operator (>>) to define the dependencies
  20. DATA & AI BOOTCAMP 2024 • Apache Airflow https://airflow.apache.org/ •

    Apache Airflow Best Practices https://airflow.readthedocs.io/en/stable/best-practices.html • Apache Airflow Guides https://www.astronomer.io/guides/ • Apache Airflow (YouTube Channel) https://www.youtube.com/channel/UCSXwxpWZQ7XZ1WL3wqevChA • Data Council (YouTube Channel) https://www.youtube.com/c/DataCouncil/ • Awesome Apache Airflow https://github.com/jghoman/awesome-apache-airflow Study More
  21. DATA & AI BOOTCAMP 2024 ขอตกลงรวมกันในการใช GCP Project • สามารถใช

    Project สวนตัวได หรือ ใชรวมกันก็ได • Project นี้จะถูกลบ หลัง Class จบ • Project นี้ถูกสรางมาเพื่อใหชวยอํานวยความสะดวกใหนักเรียนไมตองเสียเวลาสรางProject เอง • ขอความกรุณา ไมใช Project นี้สําหรับงานอื่นนอก เนื้อหาการสอนดวยคะ • ขอความกรุณา ไมสงตอ Service Account ไฟลใหทานอื่นที่ไมใชนักเรียนนะคะ 󰢚 • Naming for BigQuery DataSet: dataai_NAME_YYYY ◦ เชน dataai_beat_1991 • Naming for GCS Bucket: data-ai-NAME-YYYY • และหากตองสราง service ใดเพิ่มเติม ◦ ให ใช data-ai-NAME-YYYY เปน Prefix
  22. DATA & AI BOOTCAMP 2024 Data Lake A Data Lake

    is a centralized repository that allows organizations to store structured, semi-structured, and unstructured data at any scale. Unlike traditional databases or data warehouses, a data lake can store raw data in its native format until it's needed. This makes it highly flexible for diverse use cases, including data analytics, machine learning, and big data processing.
  23. DATA & AI BOOTCAMP 2024 Use case for Google Cloud

    Storage (GCS) • Big Data Analytics: Process and analyze large datasets. • Machine Learning: Provide raw data for training algorithms. • Data Archiving: Retain historical data for regulatory compliance or future analysis. • Data Integration: Serve as a single source of truth for disparate data sources.
  24. DATA & AI BOOTCAMP 2024 Warehouse A large building where

    raw materials or manufactured goods may be stored before their export or distribution for sale.
  25. DATA & AI BOOTCAMP 2024 Data Warehouse In computing, a

    data warehouse (DW or DWH), also known as an enterprise data warehouse (EDW), is a system used for reporting and data analysis, and is considered a core component of business intelligence throughout the enterprise. https://en.wikipedia.org/wiki/Data_warehouse
  26. DATA & AI BOOTCAMP 2024 BigQuery BigQuery is a serverless,

    highly-scalable, and cost-effective cloud data warehouse with an in-memory BI Engine and machine learning built in. ☑ Real-time analytics ☑ Standard SQL ☑ Big data ecosystem integration ☑ Federated query and logical data warehousing ☑ Storage (Colossus) and compute (Dremel) separation ☑ Geospatial data types and functions
  27. DATA & AI BOOTCAMP 2024 Course Outline Day 2: AI-Enhanced

    Data Journey • Integrate with Data User ◦ LINE Integration สําหรับแจงเตือนและติดตาม สถานะ ◦ Chat with Data ผาน Vertex AI Agent Generate Data Transform Data Analyse Data Utilize Data Software Engineer Data Engineer Data Analyst/ Analytic Engineer AI Engineer
  28. DATA & AI BOOTCAMP 2024 Agenda 1 Line Official Account

    2 Create LINE Official Account 3 Workshop LINE Notify Message 4 Workshop : Create LINE Webhook with Python SDK + Cloud Function 3 Vertex AI Agent Builder - RAG 4 Workshop : Create Chat with Data Agent 5 Vertex AI Search + Gemini Image Understanding 6 Workshop : Create Search Agent
  29. DATA & AI BOOTCAMP 2024 LINE Message types • Text

    message • Sticker message • Image message • Video message • Audio message • Location message • Imagemap message • Template message • Flex Message
  30. DATA & AI BOOTCAMP 2024 Vertex AI Search 1. Create

    Search Agent 2. Create Data Store 3. Import Documents 4. Select Large Language Model (LLM) for Search Result Summarization 5. Search Result in both Widget and API
  31. DATA & AI BOOTCAMP 2024 Course Outline Day 2: AI-Enhanced

    Data Journey • AI-Powered Development ◦ ใช Gemini Code Assist เพิ่มความเร็วในการ สราง Pipeline ◦ BigQuery Data Canvas วิเคราะหขอมูลดวย AI • Integrate with Data User ◦ LINE Integration สําหรับแจงเตือนและติดตาม สถานะ ◦ Chat with Data ผาน Vertex AI Agent
  32. DATA & AI BOOTCAMP 2024 Agenda - Github Folder 11-12

    1 What is Generative AI 2 How AI code-assisted boost productivity 3 Demo : AI-assisted Dev workflow 4 How Gemini in BigQuery help data analysis 5 Demo : Gemini in BigQuery 6 Summary
  33. DATA & AI BOOTCAMP 2024 Gemini Code Assist in Cloud

    Shell and VS Code Cloud Shell Editor VS Code
  34. DATA & AI BOOTCAMP 2024 Understand data with Gemini in

    BigQuery Bigquery Public Dataset : https://console.cloud.google.com/marketplace/product/bigquery-public-data/thelook-ecommerce