Transformers

ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
🧠 Depth Anything
📎CLIP
🌡️ Open-Vocabulary RGB-Thermal Semantic Segmentation
🧩 Efficient Vision Transformers with Partial Attention
Vision Transformers Don’t Need Trained Registers

ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

👥 Integrantes:

👤 Miguel Ángel Molina G.
👤 Sneider Sánchez

📑 Material de apoyo:

📊 Diapositivas: Diapositivas
📜 Paper: Artículo

🎯 Objetivos

Se plantean 3 objetivos para esta exposición:

✅ Analizar las limitaciones de los métodos tradicionales de encoding posicional (absoluto y relativo).
✅ Justificar la necesidad de una mejor representación posicional en modelos de lenguaje.
✅ Explicar cómo la matriz de rotación preserva la información relativa entre tokens.

📊 Resultados Esperados

📍 Se espera obtener al final de la sesión:

🔹 Diferenciación entre RoPE y otros métodos de encoding posicional.
🔹 Explicar cómo la multiplicación por una matriz de rotación mantiene la magnitud de los embeddings inalterada, asegurando que la información posicional no distorsione las representaciones originales del modelo.

📚 Referencias

📖 Enlaces que pueden servir de ayuda para el lector:

🔹 🎥 Video complementario #1
🔹 🎥 Video complementario #2

🧠 Depth Anything

👥 Integrantes:

👤 Guillermo
👤 Jorge

📑 Material de apoyo:

📊 Diapositivas: Depth Anything
📜 Paper: Depth Anything (arXiv)
💻 Código externo: Repositorio oficial en GitHub

🎯 Objetivos

📢 Como objetivos de la presente sesión, se plantean:
✅ Comprender el funcionamiento general de Depth Anything como modelo de estimación monocular de profundidad.
✅ Reconocer sus ventajas frente a modelos supervisados y métodos tradicionales.

📊 Resultados Esperados

📍 Se espera que al final de esta sesión se:
🔹 Comprenda la arquitectura y funcionamiento del encoder preentrenado y del decoder monocular.
🔹 Observar como se pueden utilizar datos no etiquetados para mejorar el funcionamiento de la red.

📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes sobre visión por computadora y estimación de profundidad:

🔹 📄 Space Depth Anything
🔹 🌐 Página del proyecto con demos

📎CLIP

👥 Integrantes:

👤 Juan Calderón
👤 César Vanegas

📑 Material de apoyo:

📊 Diapositivas: Ver presentaciones
📜 Paper: Learning Transferable Visual Models From Natural Language Supervision
💻 Código externo: Repositorio de código

🎯 Objetivos

📊 Resultados Esperados

📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes para la sesión:

🌡️ Open-Vocabulary RGB-Thermal Semantic Segmentation

👥 Integrantes:

👤 Julián León
👤 Miguel Pimiento

📑 Material de apoyo:

📊 Diapositivas: Ver presentación
📜 Paper: Ver artículo académico

🎯 Objetivos

📢 Esta sesión busca explorar avances en super-resolución de video en tiempo real, un campo crítico para aplicaciones como streaming, videovigilancia y medicina. Tienes como objetivos:
✅ ¿Por qué es importante este tema?
✅ Entender la arquitectura propuesta (Fast-VSR) y sus innovaciones.
✅ Discutir métricas de evaluación (PSNR, SSIM, latencia).
✅ Identificar aplicaciones prácticas y limitaciones.

📊 Resultados Esperados

📍 Esta sección describe de manera general lo que se espera obtener al final de la sesión:

🔹 Comprender los trade-offs entre calidad y velocidad en super-resolución..
🔹 Reconocer conceptos clave: upsampling espacial, warping óptico, y pérdidas perceptuales.
🔹 Extraer ideas para implementaciones futuras (ej: optimización en edge devices).

📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 📘 Documentación de OpenCV
🔹 📘 Guía de NumPy
🔹 📄 Artículo sobre procesamiento de imágenes

🧩 Efficient Vision Transformers with Partial Attention

👥 Integrantes:

👤 Brayan Quintero
👤 Valentina Pérez

📑 Material de apoyo:

📊 Diapositivas: Ver presentaciones
📜 Paper: Ver artículos académicos

Vision Transformers Don’t Need Trained Registers

👥 Integrantes:

👤 Guillermo Pinto
👤 Sebastian Diaz

📑 Material de apoyo:

📊 Diapositivas: Ver presentaciones
📜 Paper: Ver artículos académicos