Skip to main content

🚀 APOLLO: SGD-Like Memory, AdamW-Level Performance

👥 Integrantes:

  • 👤 Henry Mantilla
  • 👤 Sebastián Solano

📑 Material de apoyo:


🎯 Objetivos

📢 En esta sección se definen los objetivos de la sesión:

¿PorDestacar qué es importante este tema?
✅ ¿Qué se espera lograr durantecómo la sesión?alta demanda de memoria en optimizadores como AdamW limita el entrenamiento de grandes modelos.

✅ Explicar brevemente que APOLLO utiliza actualizaciones estructuradas (a nivel de canal o tensor) y proyecciones aleatorias de bajo rango para reducir el consumo de memoria.

✅ Mostrar que APOLLO (y su variante Mini) logran resultados comparables o superiores a AdamW, pero con un coste de memoria similar al del SGD.


📊 Resultados Esperados

📍 Esta sección describe de manera general lo que se espera obtener al final de la sesión:

🔹 MayorAprender comprensióna delanalizar temalas tratado.
🔹 Identificaciónmétricas de conceptosentrenamiento clave.
como 🔹perplexity Recopilaciónpara evaluar la eficiencia y el ahorro de informaciónmemoria relevante para futuras implementaciones.


⚙️ Metodología

📖 Aquí se explicarán todos los temas tratados en la sesiónobtenido con mayor detalle. Esta sección se completará después de la sesión e incluirá:APOLLO.

📌🔹 ExplicacionesContrastar detalladaslas deldiferencias proceso.
clave 📌entre AnálisisAPOLLO, de los conceptos presentados.
📌 Ejemplos prácticosAdamW y fragmentosSGD, de código.

💡 Ejemplo de código en Python:

import cv2
import matplotlib.pyplot as plt

imagen = cv2.imread(".images/ejemplo.png")
plt.imshow(cv2.cvtColor(imagen, cv2.COLOR_BGR2RGB))
plt.show()

📷 Uso de imágenes
⚠️ Solo utilizar imágenes disponibles en internet debido aidentificando las ventajas y limitaciones de almacenamiento.cada uno.

🖼️🔹 EjemploLos participantes podrán contrastar la complejidad y los costos de imagenrealizar adjunta:
una Ejemplo de imagen

SVD

📌exacta Tambiénfrente puedesa ajustarla el tamaño y alineacióutilización de las imágenes:
drawing
drawing






📊 Ejemplométodos de tabla:

bajorango,yargumentar
📌 A📌 B📌 C
✔️ UnoTextoproyección de prueba 🔍
por qué una aproximación estructurada es suficiente para entrenar LLMs.


📚 Referencias

📖 Esta sección recopila enlaces a recursos relevantes sobre procesamiento de imágenes:

🔹 📘 Documentación de OpenCVTeoría
🔹 📘 GuíaOptimizing deLLMs NumPy
for 🔹Speed 📄and Artículo sobre procesamiento de imágenesMemory