Vision Computacional

Silabo del curso Fundamentos de Visión Computacional usando Python 2026
Profesor Abraham Zamudio

1. Datos generales del curso Asignatura : Fundamentos de Visión
Computacional usando Python Horas : Modulo1 (27 horas) - Modulo2 (24 horas) - Modulo3 (24 horas) 2. Presentación En la era actual de la transformación digital, la Visión Computacional (VC) se ha consolidado como una de las disciplinas más dinámicas, desafiantes e impactantes dentro del ecosistema de la Inteligencia Artificial. Su objetivo trasciende la simple manipulación de píxeles; se trata de dotar a las máquinas de la capacidad de adquirir, procesar, analizar e interpretar información visual del mundo real con un nivel de sofisticación que rivaliza, y en ocasiones supera, la percepción humana. Desde la inspección industrial automatizada y el diagnóstico médico asistido, hasta la navegación autónoma de vehículos y la interacción hombre-máquina, los sistemas de VC son el motor de la próxima revolución tecnológica. Este programa de especialización ha sido diseñado meticulosamente para profesionales, alumnos avanzados y egresados de carreras de ciencias básicas (matemáticas, física, estadística) e ingenierías (sistemas, electrónica, mecatrónica, biomédica). Reconocemos que el perfil de nuestro prospecto no busca simplemente aprender a utilizar librerías de alto nivel como "cajas negras", sino que exige comprender los fundamentos matemáticos, estadísticos y algorítmicos que sustentan cada modelo. Por ello, este curso ofrece una formación progresiva, rigurosa y profundamente técnica, que construye un puente sólido entre la teoría clásica del procesamiento de señales y las arquitecturas de aprendizaje profundo más avanzadas de la actualidad. La estructura del programa se organiza en tres niveles consecutivos, diseñados bajo un enfoque pedagógico en espiral. Cada nivel abstrae progresivamente la complejidad de los datos, permitiendo al estudiante internalizar no solo el "cómo" se implementa una solución, sino el "por qué" matemático y computacional de su funcionamiento. Comenzamos con la representación explícita y local de la información (Nivel I), avanzamos hacia la predicción semántica densa y el modelado espacio-temporal (Nivel II), y culminamos con los paradigmas de atención global y modelado de contexto a gran escala (Nivel III). Esta progresión garantiza que el estudiante desarrolle una intuición técnica robusta, capaz de adaptar, modificar e innovar sobre los algoritmos de estado del arte. NIVEL I: FUNDAMENTOS, PROCESAMIENTO DE SEÑALES Y EL ADVENIMIENTO DEL DEEP LEARNING El primer nivel establece las bases teóricas y prácticas indispensables. Se parte de la premisa de que una imagen digital es, en esencia, una función matemática bidimensional f(x,y) mapeada a un espacio de valores (intensidad o color). En las sesiones de Procesamiento Digital de Imágenes y Preprocesamiento, el estudiante dominará las transformaciones geométricas, los espacios de color (RGB, HSV, LAB) y las operaciones en el dominio de la frecuencia (Transformada Abraham Zamudio

de Fourier 2D), comprendiendo cómo el filtrado espacial y la
corrección fotométrica no son meros ajustes, sino operaciones de convolución diseñadas para optimizar la relación señal-ruido. Posteriormente, el curso introduce las Técnicas Clásicas de Visión Computacional, donde se estudia la extracción de características mediante descriptores locales, la morfología matemática basada en teoría de conjuntos y la segmentación preliminar. Este bloque es crucial para entender la "ingeniería de características" manual, un concepto que se refuerza en los módulos de Aprendizaje Automático para Visión, donde se exploran Máquinas de Soporte Vectorial (SVM), métodos de ensamble, clustering y reducción de dimensionalidad (PCA, t-SNE). Comprender estos algoritmos clásicos es vital para apreciar la revolución que supuso el aprendizaje de representaciones jeráriques. El nivel culmina con una inmersión profunda en las Redes Neuronales Convolucionales (CNNs). Se analiza la evolución histórica y arquitectónica, desde los pioneros LeNet y AlexNet hasta las profundas VGG, explicando matemáticamente el funcionamiento de las capas convolucionales, el pooling y la retropropagación del error. NIVEL II: COMPRENSIÓN SEMÁNTICA DE ALTO NIVEL Y DINÁMICA ESPACIO-TEMPORAL El segundo nivel representa el salto de la clasificación de imágenes a tareas de predicción densa y análisis de secuencias, que son el núcleo de las aplicaciones industriales y científicas modernas. En el bloque de Detección de Objetos, se disecciona la evolución de los algoritmos, contrastando los detectores de dos etapas (Two-Stage), como la familia R-CNN (que priorizan la precisión mediante propuestas de región), con los detectores de una sola etapa (One-Stage), como SSD, RetinaNet y la familia YOLO. Se hace especial énfasis en el trade-off entre precisión (mAP) y velocidad de inferencia, así como en el diseño de funciones de pérdida avanzadas (como Focal Loss) para manejar el desbalance de clases. La Segmentación se aborda en dos vertientes: la Segmentación Semántica (con arquitecturas encoder-decoder como FCN, U-Net y DeepLab, fundamentales en imágenes médicas) y la Segmentación de Instancias (con Mask R-CNN), donde el modelo debe diferenciar no solo la clase, sino cada objeto individual a nivel de píxel. El dominio se expande a la tercera dimensión: el tiempo. En Visión Computacional para Video, el estudiante enfrentará el desafío del análisis espacio-temporal. Se estudian modelos híbridos como CNN+LSTM y ConvLSTM para el reconocimiento de acciones, y arquitecturas de vanguardia como SlowFast Networks y Temporal Shift Modules, diseñadas para capturar dinámicas a diferentes escalas de tiempo con eficiencia computacional. Finalmente, el módulo de Tracking y Multi-Object Tracking (MOT) introduce algoritmos de asociación de datos y estimación de estado. Al estudiar SORT, DeepSORT y ByteTrack, el estudiante aplicará conceptos de filtros de Kalman Abraham Zamudio

para la predicción de trayectorias y el algoritmo húngaro para
la asignación óptima, fusionando así el control clásico con el aprendizaje profundo para la re-identificación de objetos a través de cuadros de video. NIVEL III: LA REVOLUCIÓN DE LOS TRANSFORMERS Y EL ESTADO DEL ARTE El tercer y último nivel aborda el cambio de paradigma más significativo en la visión computacional de la última década: la transición del sesgo inductivo de localidad e invariancia traslacional (propio de las CNNs) hacia el modelado de dependencias globales mediante mecanismos de atención. El módulo comienza con los Fundamentos de Transformers, desglosando la matemática detrás del producto punto escalado, la Atención Multi-Cabeza (Multi-Head Attention) y la codificación posicional, conceptos originados en el procesamiento de lenguaje natural (NLP) pero adaptados magistralmente a la visión. A continuación, se deconstruye el Vision Transformer (ViT). Se explica paso a paso cómo una imagen 2D se transforma en una secuencia 1D de parches (Image Patches), cómo se proyectan en un espacio de características (Patch Embeddings) y cómo el token de clasificación (CLS Token) agrega la información global para la predicción final. Este análisis permite al estudiante comprender cómo se elimina la necesidad de convoluciones, delegando todo el aprendizaje de patrones espaciales a la capa de atención. Dado que la atención global tiene una complejidad computacional cuadrática, el curso explora las Variantes de Transformers que resuelven este cuello de botella. Se estudian arquitecturas como el Swin Transformer (que introduce ventanas desplazadas para lograr complejidad lineal), DeiT (optimizado para entrenamiento con menos datos mediante destilación) y BEiT. Asimismo, se analiza ConvNeXt, una arquitectura que demuestra cómo modernizar una CNN pura para competir en rendimiento con los Transformers, ofreciendo una perspectiva crítica sobre el diseño de redes. El programa culmina con un análisis comparativo riguroso CNN vs. Transformers, evaluando métricas de complejidad computacional (FLOPs), escalabilidad con el tamaño del conjunto de datos y requerimientos de regularización. Este debate final dota al ingeniero de los criterios necesarios para seleccionar la arquitectura óptima según las restricciones de hardware y la naturaleza del problema a resolver. 3. Objetivo general del curso Desarrollar en los participantes las competencias teóricas, matemáticas y prácticas necesarias para diseñar, implementar, evaluar y optimizar sistemas robustos de visión computacional, a través de una formación progresiva que abarca desde los fundamentos del procesamiento digital de imágenes y las técnicas clásicas de aprendizaje automático, hasta las arquitecturas avanzadas de Abraham Zamudio

aprendizaje profundo (CNNs) y los modelos de atención global (Transformers)
aplicados a imágenes y secuencias de video. 4. Objetivos específicos del curso Eje 1: Fundamentos de Procesamiento y Visión Clásica (Nivel I) 1. Dominar los fundamentos matemáticos del procesamiento digital de imágenes y video, aplicando transformaciones geométricas, operaciones en espacios de color, filtrado espacial y en el dominio de la frecuencia, así como técnicas de flujo óptico (Optical Flow) para el análisis temporal. 2. Implementar técnicas clásicas de visión computacional para la extracción robusta de información visual, incluyendo detección de bordes, descriptores locales, segmentación preliminar y morfología matemática basada en teoría de conjuntos. 3. Aplicar algoritmos de aprendizaje automático clásico a problemas de visión, desarrollando competencias en ingeniería de características (feature engineering), métodos de aprendizaje supervisado, máquinas de soporte vectorial (SVM), clustering y técnicas de reducción de dimensionalidad. Eje 2: Aprendizaje Profundo y Tareas de Percepción de Alto Nivel (Niveles I y II) 4. Comprender y construir arquitecturas de Redes Neuronales Convolucionales (CNNs), desde los modelos fundacionales (LeNet, AlexNet, VGG) hasta las arquitecturas modernas, aplicando técnicas de Transfer Learning y métodos de interpretabilidad de modelos para validar su comportamiento. 5. Diseñar y evaluar sistemas de detección de objetos, contrastando críticamente el desempeño, la complejidad y el trade-off entre precisión y velocidad de los detectores de dos etapas (familia R-CNN) frente a los detectores de una sola etapa (SSD, RetinaNet, YOLO). 6. Desarrollar modelos de segmentación a nivel de píxel, implementando arquitecturas encoder-decoder para segmentación semántica (FCN, U-Net, DeepLab) y redes de detección de instancias (Mask R-CNN) para aplicaciones que requieren delimitación precisa de objetos. Eje 3: Análisis Espacio-Temporal y Seguimiento (Nivel II) 7. Modelar la dinámica espacio-temporal en secuencias de video, diseñando pipelines de reconocimiento de acciones y comprensión de video mediante arquitecturas híbridas (CNN+LSTM, ConvLSTM) y modelos de vanguardia (SlowFast Networks, Temporal Shift Networks). 8. Implementar sistemas de seguimiento de múltiples objetos (Multi-Object Tracking, MOT), integrando algoritmos de asociación de datos (SORT, DeepSORT, ByteTrack) con técnicas de re-identificación (Re-ID) y métricas de evaluación de trayectorias. Eje 4: Arquitecturas de Vanguardia y Modelado de Contexto Global (Nivel III) Abraham Zamudio

9. Deconstruir los fundamentos matemáticos y arquitectónicos de los Transformers
aplicados a la visión, comprendiendo el funcionamiento del mecanismo de Self-Attention, Multi-Head Attention, codificación posicional, y la transformación de imágenes en secuencias de patches y embeddings (ViT). 10.Evaluar y adaptar variantes avanzadas de modelos de atención, analizando cómo arquitecturas como Swin Transformer, DeiT y BEiT resuelven las limitaciones de complejidad computacional, y comparando su rendimiento frente a CNNs modernizadas como ConvNeXt. 11.Realizar un análisis crítico y comparativo entre CNNs y Transformers, fundamentando la selección de arquitecturas en función de métricas de complejidad computacional (FLOPs), escalabilidad con el volumen de datos y requerimientos específicos de hardware en escenarios de ingeniería real. 5. Resultados de aprendizaje Al finalizar el curso el alumno: • Dominio integral del procesamiento y extracción de representaciones visuales: El estudiante será capaz de aplicar técnicas matemáticas y algorítmicas clásicas (filtrado espacial/frecuencial, morfología, descriptores locales) junto con los fundamentos del aprendizaje profundo (CNNs, Transfer Learning), para preprocesar, segmentar y extraer características jerárquicas robustas de imágenes estáticas y secuencias de video (Optical Flow). • Diseño e implementación de sistemas de percepción de alto nivel: El alumno podrá desarrollar, entrenar y evaluar modelos avanzados para tareas complejas de visión artificial, incluyendo detección de objetos (arquitecturas One-Stage y Two-Stage), segmentación semántica y de instancias a nivel de píxel, así como análisis espacio-temporal y seguimiento de múltiples objetos (MOT, Re-identification) en entornos de video dinámicos. • Evaluación crítica y aplicación de arquitecturas de vanguardia: El egresado estará capacitado para deconstruir, adaptar y comparar arquitecturas modernas basadas en mecanismos de atención global (Vision Transformers, Swin, ConvNeXt), tomando decisiones de ingeniería fundamentadas sobre la complejidad computacional, la escalabilidad y los requerimientos de datos al seleccionar el paradigma óptimo (CNN vs. Transformer) para resolver problemas reales de percepción artificial. Abraham Zamudio

6. Metodología El desarrollo de las sesiones se efectuará mediante
exposiciones del profesor, las mismas que se manejan en forma dinámica e interactiva con los alumnos, relacionando cada uno de los conceptos teóricos con casos prácticos. Asimismo, se aplicarán casos de estudio durante el desarrollo del curso con la finalidad de que los participantes resuelvan y presenten soluciones de acuerdo al esquema metodológico asignado por el profesor del curso. 7. Contenido por Sesiones: # DE HORAS CONTENIDO NIVEL I 3hrs Procesamiento Digital de Imágenes • Formación de Imágenes • Espacios de Color • Transformaciones Geométricas • Operaciones Básicas 3hrs Técnicas de Preprocesamiento de Imágenes • Mejora de Contraste • Filtrado Espacial • Eliminación de Ruido • Filtrado en Frecuencia • Correcciones Fotométricas • Segmentación Preliminar 3hrs Procesamiento de Video • Fundamentos • Técnicas de Preprocesamiento • Análisis Temporal • Optical Flow 3hrs Técnicas Clásicas de Visión Computacional (I) • Detección de Bordes • Extracción de Características • Descriptores Locales 3hrs Técnicas Clásicas de Visión Computacional (II) • Segmentación • Morfología Matemática • Detección de Objetos Clásica Abraham Zamudio

3hrs Aprendizaje Automático para Visión Computacional (I) • Ingeniería de
Características • Aprendizaje Supervisado • Métodos Ensamble 3hrs Aprendizaje Automático para Visión Computacional (II) • Máquinas de Soporte Vectorial • Clustering • Reducción de Dimensionalidad 3hrs Redes Neuronales Convolucionales (I) • Fundamentos • Arquitecturas Clásicas ◦ LeNet ◦ AlexNet ◦ VGG 3hrs Redes Neuronales Convolucionales (II) • Arquitecturas Modernas • Transfer Learning • Interpretabilidad NIVEL II 3hrs Detección de Objetos • R-CNN • Fast R-CNN • Faster R-CNN 3hrs Detectores de Una Etapa • SSD • RetinaNet • YOLO 3hrs Segmentación Semántica • FCN • U-Net • DeepLab Abraham Zamudio

3hrs Segmentación de Instancias • Mask R-CNN 3hrs Visión Computacional
para Video : Action Recognition • CNN + LSTM • ConvLSTM 3hrs Visión Computacional para Video : Video Understanding • SlowFast Networks • Temporal Shift Networks 3hrs Visión Computacional para Video : Tracking • SORT • Deep SORT • ByteTrack 3hrs Visión Computacional para Video : Multi Object Tracking • Association Metrics • Re-identificación NIVEL III 3hrs Transformers para Visión Computacional : Fundamentos • Self-Attention • Multi-Head Attention • Positional Encoding 3hrs Transformers para Visión Computacional : Arquitectura Transformer • Encoder • Decoder • Attention Maps 3hrs Transformers para Visión Computacional : Vision Transformer (I) • Image Patches 3hrs Transformers para Visión Computacional : Vision Transformer (II) • Patch Embeddings 3hrs Transformers para Visión Computacional : Vision Transformer (III) • CLS Token Abraham Zamudio

3hrs Transformers para Visión Computacional : Variantes (I) • DeiT
• Swin Transformer 3hrs Transformers para Visión Computacional : Variantes (II) • BEiT • ConvNeXt 3hrs Comparación CNN vs Transformers • Complejidad computacional • Escalabilidad • Requerimientos de datos • Prerrequisitos: Curso Básico de Python Curso Machine Learning con Python Curso Deep Learning con Python 8. Bibliografía ▪ Gonzalez, R. C. (2009). Digital image processing. Pearson education india. ▪ Szeliski, R. (2022). Computer vision: algorithms and applications. Springer Nature. ▪ Goodfellow, I. (2016). Deep learning-ian goodfellow, yoshua bengio, aaron courville-google books. ▪ Bishop, C. M. (2006). Pattern recognition and machine learning by Christopher M. Bishop (Vol. 350). Berlin, Germany:: Springer Science+ Business Media, LLC. ▪ Géron, A. (2022). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. " O'Reilly Media, Inc.". ▪ Zhang, A., Lipton, Z. C., Li, M., & Smola, A. J. (2023). Dive into deep learning. Cambridge University Press. ▪ He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778). ▪ Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556. ▪ Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25. ▪ Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28. ▪ Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988). Abraham Zamudio

▪ Redmon, J., Divvala, S., Girshick, R., & Farhadi, A.
(2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). ▪ Ronneberger, O., Fischer, P., & Brox, T. (2015, October). U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention (pp. 234-241). Cham: Springer international publishing. ▪ Bewley, A., Ge, Z., Ott, L., Ramos, F., & Upcroft, B. (2016, September). Simple online and realtime tracking. In 2016 IEEE international conference on image processing (ICIP) (pp. 3464-3468). Ieee. ▪ Wojke, N., Bewley, A., & Paulus, D. (2017, September). Simple online and realtime tracking with a deep association metric. In 2017 IEEE international conference on image processing (ICIP) (pp. 3645-3649). IEEE. ▪ Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. ▪ Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. ▪ Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., ... & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 10012-10022). ▪ Liu, Z., Mao, H., Wu, C. Y., Feichtenhofer, C., Darrell, T., & Xie, S. (2022). A convnet for the 2020s. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 11976-11986). Abraham Zamudio

Vision Computacional

Vision Computacional

Abraham Zamudio

More Decks by Abraham Zamudio

Other Decks in Education

Featured

Transcript

Silabo del curso Fundamentos de Visión Computacional usando Python 2026

1. Datos generales del curso Asignatura : Fundamentos de Visión

de Fourier 2D), comprendiendo cómo el filtrado espacial y la

para la predicción de trayectorias y el algoritmo húngaro para

aprendizaje profundo (CNNs) y los modelos de atención global (Transformers)

9. Deconstruir los fundamentos matemáticos y arquitectónicos de los Transformers

6. Metodología El desarrollo de las sesiones se efectuará mediante

3hrs Aprendizaje Automático para Visión Computacional (I) • Ingeniería de

3hrs Segmentación de Instancias • Mask R-CNN 3hrs Visión Computacional

3hrs Transformers para Visión Computacional : Variantes (I) • DeiT

▪ Redmon, J., Divvala, S., Girshick, R., & Farhadi, A.