🚀 APOLLO: SGD-Like Memory, AdamW-Level Performance 👥 Integrantes: 👤 Henry Mantilla 👤 Sebastián Solano 📑 Material de apoyo: 📊 Diapositivas: Ver presentaciones 📜 Paper: APOLLO: SGD-like Memory, AdamW-level Performance 💻 Código externo: Repositorio de código 🎯 Objetivos 📢 En esta sección se definen los objetivos de la sesión: ✅ Destacar cómo la alta demanda de memoria en optimizadores como AdamW limita el entrenamiento de grandes modelos. ✅ Explicar brevemente que APOLLO utiliza actualizaciones estructuradas (a nivel de canal o tensor) y proyecciones aleatorias de bajo rango para reducir el consumo de memoria. ✅ Mostrar que APOLLO (y su variante Mini) logran resultados comparables o superiores a AdamW, pero con un coste de memoria similar al del SGD. 📊 Resultados Esperados 📍 Esta sección describe de manera general lo que se espera obtener al final de la sesión: 🔹 Aprender a analizar las métricas de entrenamiento como perplexity para evaluar la eficiencia y el ahorro de memoria obtenido con APOLLO. 🔹 Contrastar las diferencias clave entre APOLLO, AdamW y SGD, identificando las ventajas y limitaciones de cada uno. 🔹 Los participantes podrán contrastar la complejidad y los costos de realizar una SVD exacta frente a la utilización de métodos de proyección de bajo rango, y argumentar por qué una aproximación estructurada es suficiente para entrenar LLMs. 📚 Referencias 📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes: 🔹 📘 Teoría 🔹 📘 Optimizing LLMs for Speed and Memory