Reinforcement Learning
🏋️Introduction to RL
👥 Expositores:
- 👤 Fabian Perez
- 👤 Paula Uzcátegui
📑 Material de apoyo:
La presentacion se hizo basado en el articulo de karpathy de introduccion a RL y en multiples fuentes externas
- 📊 Diapositivas: Ver presentación
- 📜 Blog: Link
- 💻 Video Externo: Enlace a Youtube
🎯 Objetivos
📢 ¿Por qué es importante este tema?
✅ Introducir los conceptos básicos de Reinforcement Learning (RL).
✅ Comprender la estructura y funcionamiento del semillero.
✅ Identificar aplicaciones clave de RL en Computer Vision.
📊 Resultados Esperados
📍 Al finalizar la sesión, se espera:
🔹 Entender los principios fundamentales del RL.
🔹 Familiarizarse con terminología y conceptos clave.
🔹 Establecer una base para futuros estudios y proyectos en RL.
⚙️ Metodología
📖 Temas tratados en la sesión:
📌 Definición y motivación del RL.
📌 Elementos básicos y definiciones matematicas: Agentes, Entorno, Recompensas.
📌 Ejemplos y aplicaciones en visión por computadora.
📚 Referencias
📖 Recursos clave para profundizar en RL:
🔹 📘 OpenAI Gym
🔹 📘 Deep Reinforcement Learning
🤖Mastering the game of Go with deep neural networks and tree search
👥 Integrantes:
- 👤 Guillermo Pinto
- 👤 Dana Villamizar
📑 Material de apoyo:
- 📊 Diapositivas: Ver presentación
- 📜 Paper: Ver artículo académico
🎯 Objetivos
✅ Explicar la combinación de deep learning y búsqueda de árboles de Monte Carlo (MCTS) en AlphaGo.
✅ Analizar el impacto de AlphaGo en el desarrollo del aprendizaje por refuerzo (RL).
📊 Resultados Esperados
🔹 Comprender cómo AlphaGo utilizó deep learning y MCTS para vencer a jugadores profesionales de Go.
🔹 Identificar aplicaciones actuales derivadas de AlphaGo en distintos campos, como AlphaZero y AlphaFold.
📚 Referencias
📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:
🔹 🎞️ Trailer AlphaGo - Netflix
🔹 🎥 Video Explicación
🐳Deepseek
👥 Integrantes:
- 👤 Andrea Parra
- 👤 Juan Calderón
📑 Material de apoyo:
- 📊 Diapositivas: DeepSeek
- 📜 Papers: DeepSeek-R1| DeepSeek-V3 | DeepSeekMath
- 💻 Código externo: Repositorio de código
🎯 Objetivos
📢 Como objetivos de la presente sesión, se plantean:
✅ Abordar el funcionamiento de DeepSeek y el por qué de su éxito.
✅ Comprender DeepSeek-R1 como el producto de trabajos y aportes anteriores(DeepSeek-V3, DeepSeekMath)
✅ Comprender sus fuertes frente a otros modelos
📊 Resultados Esperados
📍 Se espera que al final de esta sesión se:
🔹 Tengan conocimientos claros sobre DeepSeek-R1
🔹 Entiendan todos los métodos que hacen a DeepSeek tan eficiente computacionalmente (GRPO, MLHA, PTX).
🔹 Aprecie a DeepSeek por lo que es: un modelo que rivaliza con gigantes de código cerrado como lo es OpenAI.
📚 Referencias
📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:
🔹 🎞️ Video breve explicativo sobre DeepSeek R1 y V3
🔹 🎞️ Video explicativo sobre MLA
🔹 📄 Artículo explicando GRPO