# Transformers

# ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

👥 **Integrantes:**

- 👤 Miguel Ángel Molina G.
- 👤 Sneider Sánchez

📑 **Material de apoyo:**

- 📊 **Diapositivas:** [Diapositivas](https://www.canva.com/design/DAGg4SKq8RI/W_S_UTTF22k-RuiguMfmdQ/edit?utm_content=DAGg4SKq8RI&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton)
- 📜 **Paper:** [Artículo](https://arxiv.org/pdf/2104.09864v5)

---

## 🎯 **Objetivos**

Se plantean 3 objetivos para esta exposición:

✅ Analizar las limitaciones de los métodos tradicionales de encoding posicional (absoluto y relativo).  
✅ Justificar la necesidad de una mejor representación posicional en modelos de lenguaje.  
✅ Explicar cómo la matriz de rotación preserva la información relativa entre tokens.

---

## 📊 **Resultados Esperados**

📍 Se espera obtener al final de la sesión:

🔹 Diferenciación entre RoPE y otros métodos de encoding posicional.  
🔹 Explicar cómo la multiplicación por una matriz de rotación mantiene la magnitud de los embeddings inalterada, asegurando que la información posicional no distorsione las representaciones originales del modelo.

---

## 📚 **Referencias**

📖 Enlaces que pueden servir de ayuda para el lector:

🔹 [🎥 Video complementario #1](https://www.youtube.com/watch?v=o29P0Kpobz0&t=1s)  
🔹 [🎥 Video complementario #2](https://www.youtube.com/watch?v=YMcwsLGU_U8)

# 🧠 Depth Anything

👥 **Integrantes:**

- 👤 Guillermo
- 👤 Jorge

📑 **Material de apoyo:**

- 📊 **Diapositivas:** [Depth Anything](https://docs.google.com/presentation/d/1Cush8a2Mg9gXjRQt7HMB9J17a8WPpoqdDwsqi8vghfw/view)
- 📜 **Paper:** [Depth Anything (arXiv)](https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Depth_Anything_Unleashing_the_Power_of_Large-Scale_Unlabeled_Data_CVPR_2024_paper.pdf)
- 💻 **Código externo:** [Repositorio oficial en GitHub](https://github.com/LiheYoung/Depth-Anything)

---

## 🎯 **Objetivos**

📢 Como objetivos de la presente sesión, se plantean:  
✅ Comprender el funcionamiento general de **Depth Anything** como modelo de estimación monocular de profundidad.  
✅ Reconocer sus ventajas frente a modelos supervisados y métodos tradicionales.

---

## 📊 **Resultados Esperados**

📍 Se espera que al final de esta sesión se:  
🔹 Comprenda la arquitectura y funcionamiento del encoder preentrenado y del decoder monocular.  
🔹 Observar como se pueden utilizar datos no etiquetados para mejorar el funcionamiento de la red.

---

## 📚 **Referencias**

📖 Esta sección recopila enlaces a recursos relevantes sobre visión por computadora y estimación de profundidad:

🔹 [📄 Space Depth Anything](https://huggingface.co/spaces/LiheYoung/Depth-Anything)  
🔹 [🌐 Página del proyecto con demos](https://depth-anything.github.io/)

# 📎CLIP

👥 **Integrantes:**

- 👤 Juan Calderón
- 👤 César Vanegas

📑 **Material de apoyo:**

- 📊 **Diapositivas:** [Ver presentaciones](link)
- 📜 **Paper:** [Learning Transferable Visual Models From Natural Language Supervision](https://arxiv.org/pdf/2103.00020)
- 💻 **Código externo:** [Repositorio de código](link)

---

## 🎯 **Objetivos**

---

## 📊 Resultados Esperados

---

## 📚 **Referencias**

📖 Esta sección recopila enlaces a recursos relevantes para la sesión:

# 🌡️ Open-Vocabulary RGB-Thermal Semantic Segmentation

👥 **Integrantes:**

- 👤 Julián León
- 👤 Miguel Pimiento

📑 **Material de apoyo:**

- 📊 **Diapositivas:** [Ver presentación](https://www.canva.com/design/DAGmr4YpJJY/QOWdjHd1NM_6oMsPXaZlrA/view?utm_content=DAGmr4YpJJY&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=h6de5a25d2d)
- 📜 **Paper:** [Ver artículo académico](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09460.pdf)

---

## 🎯 **Objetivos**

📢 Esta sesión busca explorar avances en super-resolución de video en tiempo real, un campo crítico para aplicaciones como streaming, videovigilancia y medicina. Tienes como objetivos:  
✅ ¿Por qué es importante este tema?  
✅ Entender la arquitectura propuesta (Fast-VSR) y sus innovaciones.  
✅ Discutir métricas de evaluación (PSNR, SSIM, latencia).  
✅ Identificar aplicaciones prácticas y limitaciones.

---

## 📊 Resultados Esperados

📍 Esta sección describe de manera general lo que se espera obtener al final de la sesión:

🔹 Comprender los trade-offs entre calidad y velocidad en super-resolución..  
🔹 Reconocer conceptos clave: upsampling espacial, warping óptico, y pérdidas perceptuales.  
🔹 Extraer ideas para implementaciones futuras (ej: optimización en edge devices).

---

## 📚 **Referencias**

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 [📘 Documentación de OpenCV](https://docs.opencv.org/)  
🔹 [📘 Guía de NumPy](https://numpy.org/doc/stable/)  
🔹 [📄 Artículo sobre procesamiento de imágenes](https://ejemplo.com/articulo)

# 🧩 Efficient Vision Transformers with Partial Attention

👥 **Integrantes:**

- 👤 Brayan Quintero
- 👤 Valentina Pérez

📑 **Material de apoyo:**

- 📊 **Diapositivas:** [Ver presentaciones](https://www.canva.com/design/DAGmWF4NY0c/ZBd75N2V4BSMrChzVPjO8g/edit?utm_content=DAGmWF4NY0c&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton)
- 📜 **Paper:** [Ver artículos académicos](https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11047.pdf)

# Vision Transformers Don’t Need Trained Registers

## 👥 **Integrantes:**

- 👤 Guillermo Pinto
- 👤 Sebastian Diaz

## 📑 **Material de apoyo:**

- 📊 **Diapositivas:** [Ver presentaciones](https://correouisedu-my.sharepoint.com/:p:/g/personal/guillermo2269117_correo_uis_edu_co/IQBQjjnqPEs2RLcSma_JAHG0AWc4BoSzrE3TLsyUGlKF1RQ?e=uo9vrc)
- 📜 **Paper:** [Ver artículos académicos](https://arxiv.org/pdf/2506.08010)

## 📚 **Referencias**

- [Video from authors](https://www.youtube.com/watch?v=Ea7mfn78ESg)
- [Vision transformers need registers](https://arxiv.org/pdf/2309.16588)