# Reinforcement Learning

# 🏋️Introduction to RL

👥 **Expositores:**

- 👤 Fabian Perez
- 👤 Paula Uzcátegui

📑 **Material de apoyo:**

La presentacion se hizo basado en el articulo de karpathy de introduccion a RL y en multiples fuentes externas

- 📊 **Diapositivas:** [Ver presentación](https://www.canva.com/design/DAGfjizwcQE/9oHwfg3TLnEDwHvY5pNGTw/view?utm_content=DAGfjizwcQE&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=hcb1b053ebf)
- 📜 **Blog:** [Link](https://karpathy.github.io/2016/05/31/rl/)
- 💻 **Video Externo:** [Enlace a Youtube](https://www.youtube.com/watch?v=VnpRp7ZglfA)

---

## 🎯 **Objetivos**

📢 ¿Por qué es importante este tema?

✅ Introducir los conceptos básicos de Reinforcement Learning (RL).  
✅ Comprender la estructura y funcionamiento del semillero.  
✅ Identificar aplicaciones clave de RL en Computer Vision.

---

## 📊 **Resultados Esperados**

📍 Al finalizar la sesión, se espera:

🔹 Entender los principios fundamentales del RL.  
🔹 Familiarizarse con terminología y conceptos clave.  
🔹 Establecer una base para futuros estudios y proyectos en RL.

---

## ⚙️ **Metodología**

📖 Temas tratados en la sesión:

📌 Definición y motivación del RL.  
📌 Elementos básicos y definiciones matematicas: Agentes, Entorno, Recompensas.  
📌 Ejemplos y aplicaciones en visión por computadora.

---

## 📚 **Referencias**

📖 Recursos clave para profundizar en RL:

🔹 [📘 OpenAI Gym](https://www.gymlibrary.dev/)  
🔹 [📘 Deep Reinforcement Learning](https://spinningup.openai.com/)

---

# 🤖Mastering the game of Go with deep neural networks and tree search

---

👥 **Integrantes:**

- 👤 Guillermo Pinto
- 👤 Dana Villamizar

📑 **Material de apoyo:**

- 📊 **Diapositivas:** [Ver presentación](https://docs.google.com/presentation/d/16PetPAYfpv7578DIEwMEf_DmdhjuBX-fY0U0scgbkoc/edit?usp=sharing)
- 📜 **Paper:** [Ver artículo académico](https://www.nature.com/articles/nature16961)

---

## 🎯 **Objetivos**

✅ Explicar la combinación de deep learning y búsqueda de árboles de Monte Carlo (MCTS) en AlphaGo.

✅ Analizar el impacto de AlphaGo en el desarrollo del aprendizaje por refuerzo (RL).

---

## 📊 Resultados Esperados

🔹 Comprender cómo AlphaGo utilizó deep learning y MCTS para vencer a jugadores profesionales de Go.  
🔹 Identificar aplicaciones actuales derivadas de AlphaGo en distintos campos, como AlphaZero y AlphaFold.

---

## 📚 **Referencias**

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 [🎞️ Trailer AlphaGo - Netflix](https://www.dailymotion.com/video/x8ii1td)  
🔹 [🎥 Video Explicación](https://www.youtube.com/watch?v=Z1BELqFQZVM&ab_channel=AleksaGordi%C4%87-TheAIEpiphany)

# 🐳Deepseek

👥 **Integrantes:**

- 👤 Andrea Parra
- 👤 Juan Calderón

📑 **Material de apoyo:**

- 📊 **Diapositivas:** [DeepSeek](https://www.canva.com/design/DAGjZ-Kj63A/iyEenurKWINf7GenHk5-dg/edit?utm_content=DAGjZ-Kj63A&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton)
- 📜 **Papers:**[DeepSeek-R1| ](https://arxiv.org/pdf/2501.12948)[DeepSeek-V3 | ](https://arxiv.org/pdf/2412.19437v1)[DeepSeekMath](https://arxiv.org/pdf/2402.03300)
- 💻 **Código externo:** [Repositorio de código](link)

---

## 🎯 **Objetivos**

📢 Como objetivos de la presente sesión, se plantean:  
✅ Abordar el funcionamiento de DeepSeek y el por qué de su éxito.  
✅ Comprender DeepSeek-R1 como el producto de trabajos y aportes anteriores(DeepSeek-V3, DeepSeekMath)  
✅ Comprender sus fuertes frente a otros modelos

---

## 📊 Resultados Esperados

📍 Se espera que al final de esta sesión se:

🔹 Tengan conocimientos claros sobre DeepSeek-R1  
🔹 Entiendan todos los métodos que hacen a DeepSeek tan eficiente computacionalmente (GRPO, MLHA, PTX).  
🔹 Aprecie a DeepSeek por lo que es: un modelo que rivaliza con gigantes de código cerrado como lo es OpenAI.

---

## 📚 **Referencias**

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 [🎞️ Video breve explicativo sobre DeepSeek R1 y V3](https://www.youtube.com/watch?v=fTjPEE0fk-U)  
🔹 [🎞️ Video explicativo sobre MLA](https://www.youtube.com/watch?v=0VLAoVGf_74&t=216s)🔹 [📄 Artículo explicando GRPO](https://huggingface.co/blog/NormalUhr/grpo)