Reinforcement Learning


🏋️Introduction to RL

👥 Expositores:

📑 Material de apoyo:

La presentacion se hizo basado en el articulo de karpathy de introduccion a RL y en multiples fuentes externas


🎯 Objetivos

📢 ¿Por qué es importante este tema?

✅ Introducir los conceptos básicos de Reinforcement Learning (RL).
✅ Comprender la estructura y funcionamiento del semillero.
✅ Identificar aplicaciones clave de RL en Computer Vision.


📊 Resultados Esperados

📍 Al finalizar la sesión, se espera:

🔹 Entender los principios fundamentales del RL.
🔹 Familiarizarse con terminología y conceptos clave.
🔹 Establecer una base para futuros estudios y proyectos en RL.


⚙️ Metodología

📖 Temas tratados en la sesión:

📌 Definición y motivación del RL.
📌 Elementos básicos y definiciones matematicas: Agentes, Entorno, Recompensas.
📌 Ejemplos y aplicaciones en visión por computadora.


📚 Referencias

📖 Recursos clave para profundizar en RL:

🔹 📘 OpenAI Gym
🔹 📘 Deep Reinforcement Learning


🤖Mastering the game of Go with deep neural networks and tree search


👥 Integrantes:

📑 Material de apoyo:


🎯 Objetivos

✅ Explicar la combinación de deep learning y búsqueda de árboles de Monte Carlo (MCTS) en AlphaGo.

✅ Analizar el impacto de AlphaGo en el desarrollo del aprendizaje por refuerzo (RL).


📊 Resultados Esperados

🔹 Comprender cómo AlphaGo utilizó deep learning y MCTS para vencer a jugadores profesionales de Go.
🔹 Identificar aplicaciones actuales derivadas de AlphaGo en distintos campos, como AlphaZero y AlphaFold.


📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 🎞️ Trailer AlphaGo - Netflix
🔹 🎥 Video Explicación

🐳Deepseek

👥 Integrantes:

📑 Material de apoyo:


🎯 Objetivos

📢 Como objetivos de la presente sesión, se plantean:
✅ Abordar el funcionamiento de DeepSeek y el por qué de su éxito.
✅ Comprender DeepSeek-R1 como el producto de trabajos y aportes anteriores(DeepSeek-V3, DeepSeekMath)
✅ Comprender sus fuertes frente a otros modelos


📊 Resultados Esperados

📍 Se espera que al final de esta sesión se:

🔹 Tengan conocimientos claros sobre DeepSeek-R1
🔹 Entiendan todos los métodos que hacen a DeepSeek tan eficiente computacionalmente (GRPO, MLHA, PTX).
🔹 Aprecie a DeepSeek por lo que es: un modelo que rivaliza con gigantes de código cerrado como lo es OpenAI.


📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 🎞️ Video breve explicativo sobre DeepSeek R1 y V3
🔹 🎞️ Video explicativo sobre MLA 🔹 📄 Artículo explicando GRPO