Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Análisis exploratorio de datos con R

Análisis exploratorio de datos con R

Avatar for Abraham Zamudio

Abraham Zamudio

August 26, 2025
Tweet

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. Silabo del curso PIT - Análisis exploratorio de datos con

    R 2025 ​ ​ Profesor Abraham Zamudio
  2. 1.​ Datos Generales del curso Asignatura​ : Análisis exploratorio de

    datos con R Horas​ : 16 (4 hrs/clase)​ ​ 2.​ Presentación En el panorama actual, donde la información fluye a una velocidad sin precedentes y se genera una cantidad masiva de datos cada segundo, la capacidad de extraer valor y conocimiento de esta avalancha de información se ha convertido en una habilidad no solo deseable, sino fundamental para profesionales en prácticamente cualquier sector. No importa si te encuentras en investigación científica,ingeniería, finanzas, marketing, salud, o incluso en campos aparentemente menos orientados a los datos como las artes o las humanidades; la habilidad para comprender, procesar y comunicar perspicacias derivadas de los datos te posiciona en una ventaja competitiva significativa. Este curso lo he diseñado específicamente para personas con un conocimiento básico del lenguaje de programación R , que ya conocen algunos de los conceptos más básicos de la estadística . Supondré que ya te sientes cómodo con la sintaxis básica, la creación de variables, el uso de funciones, las estructuras de datos fundamentales como vectores, matrices, e incluso, posiblemente, ya has realizado tus primeros scripts o pequeños proyectos. Reconozco que tu motivación es ir más allá de lo básico, no solo para ejecutar comandos, sino para comprender la lógica detrás de cada paso en el proceso de análisis y, lo que es más importante, para interpretar los resultados de manera crítica y utilizarlos para informar decisiones. A lo largo de este curso, se desarrollará la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining), un marco de trabajo ampliamente reconocido que te guiará de manera estructurada a través de las diferentes fases de un proyecto de minería de datos o ciencia de datos, desde la comprensión del negocio y los datos hasta el despliegue de los resultados. Aprender a aplicar esta metodología te permitirá abordar cualquier proyecto de análisis de datos de manera organizada y eficiente, maximizando las probabilidades de éxito. Uno de los pilares de este curso será la inmersión profunda en el Tidyverse, un ecosistema de paquetes de R diseñado para hacer que la ciencia de datos sea más sencilla, consistente y divertida. Olvídate de los enfoques fragmentados; con paquetes como dplyr para la manipulación de datos, ggplot2 para la visualización, tidyr para la limpieza y reestructuración, y readr para la importación, mi manera de usar Tidyverse te proporcionará un flujo de trabajo cohesivo y elegante que te permitirá transformar datos crudos en visualizaciones muy comunicativas con una eficiencia sorprendente. No solo te enseñaré a usar estas herramientas, sino que entenderás la filosofía "tidy data" que las sustenta, lo que te permitirá escribir código más limpio, legible y reproducible. Además de las herramientas, nos centraremos en el desarrollo de un pensamiento analítico crítico. No se trata solo de aplicar funciones, sino de saber qué pregunta hacer a los datos, cómo seleccionar la técnica adecuada para responder y cómo evaluar la validez y las limitaciones de tus hallazgos. Abordaremos temas esenciales como la estadística descriptiva, que te permitirá caracterizar tus datos de manera robusta, y la estadística Abraham Zamudio
  3. inferencial, que te equipará para hacer generalizaciones sobre una población

    a partir de una muestra, una habilidad crucial para la investigación y la toma de decisiones basada en evidencia. Esto incluye una introducción práctica a los conceptos de probabilidad y a las pruebas de hipótesis, herramientas fundamentales para validar suposiciones y comparar grupos de datos. Finalmente, el curso te abrirá las puertas a la manipulación y visualización de datos con componentes temporales y espaciales, ampliando drásticamente el tipo de problemas que podrás abordar. La capacidad de analizar series de tiempo es vital para predecir fenómenos económicos, patrones climáticos o el comportamiento de sistemas a lo largo del tiempo. De igual forma, la visualización de datos espaciales te permitirá identificar patrones geográficos, analizar distribuciones de eventos y tomar decisiones informadas sobre ubicaciones. Al finalizar estas cuatro clases, no solo expandimos tu conjunto de habilidades, sino que también desarrollarás una perspectiva más holística y multidimensional en tus análisis, preparándote para enfrentar los desafíos de los conjuntos de datos complejos del mundo real. 3.​ Objetivo general del curso Capacitar a los participantes con conocimientos básicos de programación en R para que adquieran las habilidades, técnicas y metodologías fundamentales del análisis de datos, permitiéndoles transformar datos brutos en conocimiento significativo, realizar análisis exploratorios, aplicar principios de probabilidad y estadística inferencial, y abordar la visualización de datos temporales y espaciales de manera efectiva y profesional utilizando el lenguaje R y su ecosistema Tidyverse. 4.​ Objetivos específicos del curso •​ Dominar las herramientas clave del Tidyverse para la manipulación y visualización de datos •​ Aplicar la metodología CRISP-DM en proyectos de análisis de datos •​ Fundamentar el análisis de datos en principios de probabilidad y estadística inferencial •​ Realizar análisis exploratorios avanzados y generar visualizaciones perspicaces •​ Extender las capacidades de análisis a datos temporales y espaciales 5.​ Resultados de aprendizaje Al finalizar el curso el alumno: •​ Aplica de manera útil las características que tiene el lenguaje de programación R a problemas reales que requieren un análisis más profundo. •​ Saber cómo explotar las características inherentes de la estadística descriptiva e inferencial •​ Conoce y es capaz de implementar algoritmos para resolver problemas prácticos. •​ Identifica, selecciona y combina los algoritmos enseñados en el curso, y los aplica en casos de interés para su carrera y/o trabajo. 6.​ Metodología Abraham Zamudio
  4. El desarrollo de las sesiones se efectuará mediante exposiciones del

    profesor, las mismas que se manejan en forma dinámica e interactiva con los alumnos, relacionando cada uno de los conceptos teóricos con casos prácticos. Asimismo, se aplicarán casos de estudio durante el desarrollo del curso con la finalidad de que los participantes resuelvan y presenten soluciones de acuerdo al esquema metodológico asignado por el profesor del curso. 7.​ Contenido por Sesiones: # DE HORAS CONTENIDO 3 hrs Sesión 1 : Comprensión del Negocio y los Datos •​ Prueba de entrada : Evaluación de conocimientos básicos de R •​ Introducción a CRISP-DM : Las 6 fases y su importancia en proyectos de datos. •​ Comprensión del negocio : Definición de objetivos y requisitos del proyecto. •​ Comprensión de los datos: ◦​ Carga de datos ◦​ Exploración inicial con dplyr ◦​ Gestión de dataframes con dplyr . 3 hrs Sesión 2 : Preparación de Datos •​ Limpieza de datos : ◦​ Manejo de valores faltantes ◦​ Identificación y tratamiento de valores atípicos. ◦​ Corrección de tipos de datos. •​ Transformación de datos : ◦​ Manipulación de fechas ◦​ Manejo de factores ◦​ Creación de variables relevantes para el caso de negocio. 3 hrs Sesión 3 : Análisis Exploratorio de Datos - EDA •​ Estadística descriptiva univariada : ◦​ Medidas de tendencia central y dispersión. ◦​ Visualización con ggplot2 •​ Estadística descriptiva bivariada : ◦​ Correlación y tablas cruzadas. ◦​ Visualización con ggplot2 •​ Interpretación de resultados en contexto de negocio. 3 hrs Sesión 4 : Modelado Estadístico Básico Abraham Zamudio
  5. ​ Variables aleatorias y distribuciones de probabilidad : •​ Distribuciones

    normal, binomial, Poisson. ◦​ Generación y visualización de distribuciones en R. •​ Pruebas de hipótesis : ◦​ t-test, chi-cuadrado, ANOVA. ◦​ Implementación en R •​ Evaluación de resultados : ◦​ Interpretación de p-values e intervalos de confianza. ◦​ Limitaciones y supuestos de los modelos.​ 3 hrs Sesión 5 : Visualización de Series de Tiempo •​ Introducción a series de tiempo : ◦​ Conceptos básicos: tendencia, estacionalidad, ruido. •​ Visualización con ggplot2 y lubridate : ◦​ Gráficos de línea, descomposición temporal. ◦​ Personalización de gráficos para series de tiempo. •​ Análisis exploratorio : ◦​ Identificación de patrones y anomalías. 3 hrs Sesión 6 : Visualización Espacial y Comunicación •​ Visualización de datos espaciales : ◦​ Introducción a sf y ggplot2 para mapas. ◦​ Mapas coropléticos y de puntos. •​ Comunicación de resultados : ◦​ Creación de reportes con RMarkdown. •​ Cierre del curso: repaso de CRISP-DM y próximos pasos. ​ •​ Prerrequisitos:​ Estadística Descriptiva Fundamentos de Programación en R [PIT] 8.​ Bibliografía •​ Fortino, A. (2023). Data mining and predictive analytics for business decisions: a case study approach. •​ •​ Schröer, C., Kruse, F., & Gómez, J. M. (2021). A systematic literature review on applying CRISP-DM process model. Procedia Computer Science, 181, 526-534. •​ Peker, S., & Kart, Ö. (2023). Transactional data-based customer segmentation applying CRISP-DM methodology: A systematic review. Journal of Data, Information and Management, 5(1), 1-21. •​ Saltz, J. S. (2021, December). CRISP-DM for data science: strengths, weaknesses and potential next steps. In 2021 IEEE International Conference on Big Data (Big Data) (pp. 2337-2344). IEEE. •​ Brzozowska, J., Pizoń, J., Baytikenova, G., Gola, A., Zakimova, A., & Piotrowska, K. (2023). Data engineering in CRISP-DM process production data–case study. Applied Computer Science, 19(3). Abraham Zamudio
  6. •​ Cazacu, M., & Titan, E. (2021). Adapting CRISP-DM for

    social sciences. BRAIN. Broad Research in Artificial Intelligence and Neuroscience, 11(2Sup1), 99-106. Abraham Zamudio