🚀 APOLLO: SGD-Like Memory, AdamW-Level Performance
👥 Integrantes:
- 👤 Henry Mantilla
- 👤 Sebastián Solano
📑 Material de apoyo:
- 📊 Diapositivas: Ver presentaciones
- 📜 Paper: APOLLO: SGD-like Memory, AdamW-level Performance
- 💻 Código externo: Repositorio de código
🎯 Objetivos
📢 En esta sección se definen los objetivos de la sesión:
✅ Destacar cómo la alta demanda de memoria en optimizadores como AdamW limita el entrenamiento de grandes modelos.
✅ Explicar brevemente que APOLLO utiliza actualizaciones estructuradas (a nivel de canal o tensor) y proyecciones aleatorias de bajo rango para reducir el consumo de memoria.
✅ Mostrar que APOLLO (y su variante Mini) logran resultados comparables o superiores a AdamW, pero con un coste de memoria similar al del SGD.
📊 Resultados Esperados
📍 Esta sección describe de manera general lo que se espera obtener al final de la sesión:
🔹 Aprender a analizar las métricas de entrenamiento como perplexity para evaluar la eficiencia y el ahorro de memoria obtenido con APOLLO.
🔹 Contrastar las diferencias clave entre APOLLO, AdamW y SGD, identificando las ventajas y limitaciones de cada uno.
🔹 Los participantes podrán contrastar la complejidad y los costos de realizar una SVD exacta frente a la utilización de métodos de proyección de bajo rango, y argumentar por qué una aproximación estructurada es suficiente para entrenar LLMs.
📚 Referencias
📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:
No Comments