Transformers


ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

👥 Integrantes:

📑 Material de apoyo:


🎯 Objetivos

Se plantean 3 objetivos para esta exposición:

✅ Analizar las limitaciones de los métodos tradicionales de encoding posicional (absoluto y relativo).
✅ Justificar la necesidad de una mejor representación posicional en modelos de lenguaje.
✅ Explicar cómo la matriz de rotación preserva la información relativa entre tokens.


📊 Resultados Esperados

📍 Se espera obtener al final de la sesión:

🔹 Diferenciación entre RoPE y otros métodos de encoding posicional.
🔹 Explicar cómo la multiplicación por una matriz de rotación mantiene la magnitud de los embeddings inalterada, asegurando que la información posicional no distorsione las representaciones originales del modelo.


📚 Referencias

📖 Enlaces que pueden servir de ayuda para el lector:

🔹 🎥 Video complementario #1
🔹 🎥 Video complementario #2

🧠 Depth Anything

👥 Integrantes:

📑 Material de apoyo:


🎯 Objetivos

📢 Como objetivos de la presente sesión, se plantean:
✅ Comprender el funcionamiento general de Depth Anything como modelo de estimación monocular de profundidad.
✅ Reconocer sus ventajas frente a modelos supervisados y métodos tradicionales.


📊 Resultados Esperados

📍 Se espera que al final de esta sesión se:
🔹 Comprenda la arquitectura y funcionamiento del encoder preentrenado y del decoder monocular.
🔹 Observar como se pueden utilizar datos no etiquetados para mejorar el funcionamiento de la red.


📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes sobre visión por computadora y estimación de profundidad:

🔹 📄 Space Depth Anything
🔹 🌐 Página del proyecto con demos

📎CLIP

👥 Integrantes:

📑 Material de apoyo:


🎯 Objetivos


📊 Resultados Esperados


📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes para la sesión:

🌡️ Open-Vocabulary RGB-Thermal Semantic Segmentation

👥 Integrantes:

📑 Material de apoyo:


🎯 Objetivos

📢 Esta sesión busca explorar avances en super-resolución de video en tiempo real, un campo crítico para aplicaciones como streaming, videovigilancia y medicina. Tienes como objetivos:
✅ ¿Por qué es importante este tema?
✅ Entender la arquitectura propuesta (Fast-VSR) y sus innovaciones.
✅ Discutir métricas de evaluación (PSNR, SSIM, latencia).
✅ Identificar aplicaciones prácticas y limitaciones.


📊 Resultados Esperados

📍 Esta sección describe de manera general lo que se espera obtener al final de la sesión:

🔹 Comprender los trade-offs entre calidad y velocidad en super-resolución..
🔹 Reconocer conceptos clave: upsampling espacial, warping óptico, y pérdidas perceptuales.
🔹 Extraer ideas para implementaciones futuras (ej: optimización en edge devices).


📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 📘 Documentación de OpenCV
🔹 📘 Guía de NumPy
🔹 📄 Artículo sobre procesamiento de imágenes

🧩 Efficient Vision Transformers with Partial Attention

👥 Integrantes:

📑 Material de apoyo:

Vision Transformers Don’t Need Trained Registers

👥 Integrantes:

📑 Material de apoyo:

📚 Referencias