🚀 APOLLO: SGD-Like Memory, AdamW-Level Performance

👥 Integrantes:

👤 Henry Mantilla
👤 Sebastián Solano

📑 Material de apoyo:

📊 Diapositivas: Ver presentaciones
📜 Paper: APOLLO: SGD-like Memory, AdamW-level Performance
💻 Código externo: Repositorio de código

🎯 Objetivos

📢 En esta sección se definen los objetivos de la sesión:

✅ ~~¿Por~~Destacar ~~qué es importante este tema?~~
~~✅ ¿Qué se espera lograr durante~~cómo la ~~sesión?~~alta demanda de memoria en optimizadores como AdamW limita el entrenamiento de grandes modelos.

✅ Explicar brevemente que APOLLO utiliza actualizaciones estructuradas (a nivel de canal o tensor) y proyecciones aleatorias de bajo rango para reducir el consumo de memoria.

✅ Mostrar que APOLLO (y su variante Mini) logran resultados comparables o superiores a AdamW, pero con un coste de memoria similar al del SGD.

📊 Resultados Esperados

📍 Esta sección describe de manera general lo que se espera obtener al final de la sesión:

🔹 ~~Mayor~~Aprender ~~comprensión~~a ~~del~~analizar ~~tema~~las ~~tratado.~~
~~🔹 Identificación~~métricas de ~~conceptos~~entrenamiento ~~clave.~~
como 🔹perplexity ~~Recopilación~~para evaluar la eficiencia y el ahorro de ~~información~~memoria ~~relevante para futuras implementaciones.~~

⚙️ Metodología

~~📖 Aquí se explicarán todos los temas tratados en la sesión~~obtenido con ~~mayor detalle. Esta sección se completará después de la sesión e incluirá:~~APOLLO.

📌🔹 ~~Explicaciones~~Contrastar ~~detalladas~~las ~~del~~diferencias ~~proceso.~~
clave 📌entre ~~Análisis~~APOLLO, ~~de los conceptos presentados.~~
~~📌 Ejemplos prácticos~~AdamW y ~~fragmentos~~SGD, ~~de código.~~

💡 ~~Ejemplo de código en Python:~~

import cv2
import matplotlib.pyplot as plt

imagen = cv2.imread(".images/ejemplo.png")
plt.imshow(cv2.cvtColor(imagen, cv2.COLOR_BGR2RGB))
plt.show()

📷 ~~Uso de imágenes~~
~~⚠️ Solo utilizar imágenes disponibles en internet debido a~~identificando las ventajas y limitaciones de ~~almacenamiento.~~cada uno.

🖼️🔹 ~~Ejemplo~~Los participantes podrán contrastar la complejidad y los costos de ~~imagen~~realizar ~~adjunta:~~
una

SVD

📌exacta ~~También~~frente ~~puedes~~a ~~ajustar~~la ~~el tamaño y alineació~~utilización de ~~las imágenes:~~

📊 ~~Ejemplo~~métodos de ~~tabla:~~

bajorango,yargumentar

~~📌 A~~	~~📌 B~~	~~📌 C~~
~~✔️ Uno~~	~~Texto~~proyección de ~~prueba~~	🔍

por qué una aproximación estructurada es suficiente para entrenar LLMs.

📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 📘 ~~Documentación de OpenCV~~Teoría
🔹 📘 ~~Guía~~Optimizing deLLMs ~~NumPy~~
for 🔹Speed 📄and ~~Artículo sobre procesamiento de imágenes~~Memory