Transformers

ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
👥 Integrantes: 
 
 👤 Miguel Ángel Molina G. 
 👤 Sneider Sánchez 
 
 📑 Material de apoyo: 
 
 📊 Diapositivas: Diapositivas 
 📜 Paper: Artículo 
 
 
 🎯 Objetivos 
 Se plantean 3 objetivos para esta exposición: 
 ✅ Analizar las limitaciones de los métodos tradicionales de encoding posicional (absoluto y relativo). 
✅ Justificar la necesidad de una mejor representación posicional en modelos de lenguaje. 
✅ Explicar cómo la matriz de rotación preserva la información relativa entre tokens. 
 
 📊 Resultados Esperados 
 📍 Se espera obtener al final de la sesión: 
 🔹 Diferenciación entre RoPE y otros métodos de encoding posicional. 
🔹 Explicar cómo la multiplicación por una matriz de rotación mantiene la magnitud de los embeddings inalterada, asegurando que la información posicional no distorsione las representaciones originales del modelo. 
 
 📚 Referencias 
 📖 Enlaces que pueden servir de ayuda para el lector: 
 🔹 🎥 Video complementario #1 
🔹 🎥 Video complementario #2

🧠 Depth Anything
👥 Integrantes: 
 
 👤 Guillermo 
 👤 Jorge 
 
 📑 Material de apoyo: 
 
 📊 Diapositivas: Depth Anything 
 📜 Paper: Depth Anything (arXiv) 
 💻 Código externo: Repositorio oficial en GitHub 
 
 
 🎯 Objetivos 
 📢 Como objetivos de la presente sesión, se plantean: 
✅ Comprender el funcionamiento general de Depth Anything como modelo de estimación monocular de profundidad. 
✅ Reconocer sus ventajas frente a modelos supervisados y métodos tradicionales. 
 
 📊 Resultados Esperados 
 📍 Se espera que al final de esta sesión se: 
🔹 Comprenda la arquitectura y funcionamiento del encoder preentrenado y del decoder monocular. 
🔹 Observar como se pueden utilizar datos no etiquetados para mejorar el funcionamiento de la red. 
 
 📚 Referencias 
 📖 Esta sección recopila enlaces a recursos relevantes sobre visión por computadora y estimación de profundidad: 
 🔹 📄 Space Depth Anything 
🔹 🌐 Página del proyecto con demos

📎CLIP
👥 Integrantes: 
 
 👤 Juan Calderón 
 👤 César Vanegas 
 
 📑 Material de apoyo: 
 
 📊 Diapositivas: Ver presentaciones 
 📜 Paper: Learning Transferable Visual Models From Natural Language Supervision 
 💻 Código externo: Repositorio de código 
 
 
 🎯 Objetivos 
 
 📊 Resultados Esperados 
 
 📚 Referencias 
 📖 Esta sección recopila enlaces a recursos relevantes para la sesión:

🌡️ Open-Vocabulary RGB-Thermal Semantic Segmentation
👥 Integrantes: 
 
 👤 Julián León 
 👤 Miguel Pimiento 
 
 📑 Material de apoyo: 
 
 📊 Diapositivas: Ver presentación 
 📜 Paper: Ver artículo académico 
 
 
 🎯 Objetivos 
 📢 Esta sesión busca explorar avances en super-resolución de video en tiempo real, un campo crítico para aplicaciones como streaming, videovigilancia y medicina. Tienes como objetivos: 
✅ ¿Por qué es importante este tema? 
✅ Entender la arquitectura propuesta (Fast-VSR) y sus innovaciones. 
✅ Discutir métricas de evaluación (PSNR, SSIM, latencia). 
✅ Identificar aplicaciones prácticas y limitaciones. 
 
 📊 Resultados Esperados 
 📍 Esta sección describe de manera general lo que se espera obtener al final de la sesión: 
 🔹 Comprender los trade-offs entre calidad y velocidad en super-resolución.. 
🔹 Reconocer conceptos clave: upsampling espacial, warping óptico, y pérdidas perceptuales. 
🔹 Extraer ideas para implementaciones futuras (ej: optimización en edge devices). 
 
 📚 Referencias 
 📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes: 
 🔹 📘 Documentación de OpenCV 
🔹 📘 Guía de NumPy 
🔹 📄 Artículo sobre procesamiento de imágenes

🧩 Efficient Vision Transformers with Partial Attention
👥 Integrantes: 
 
 👤 Brayan Quintero 
 👤 Valentina Pérez 
 
 📑 Material de apoyo: 
 
 📊 Diapositivas: Ver presentaciones 
 📜 Paper: Ver artículos académicos

Vision Transformers Don’t Need Trained Registers
👥 Integrantes: 
 
 👤 Guillermo Pinto 
 👤 Sebastian Diaz 
 
 📑 Material de apoyo: 
 
 📊 Diapositivas: Ver presentaciones 
 📜 Paper: Ver artículos académicos 
 
 📚 Referencias 
 
 Video from authors 
 Vision transformers need registers