Derivadas del Error Cuadrático Medio: De la teoría a la práctica

Introducción

Una de las partes confusas del Machine Learning es entender cómo se calculan las derivadas del Error Cuadrático Medio (ECM) para actualizar los pesos del modelo. En este post voy a explicar paso a paso, con mucho detalle, cómo llegamos a las fórmulas que usamos en el gradiente descendente.

Si alguna vez te preguntaste:

¿De dónde sale la fórmula derivada = -2 * mean(X * (y - y_pred))?
¿Por qué para el bias es diferente?
¿Qué es eso de la “regla de la cadena”?

Este post es para ti.

El problema: Función de predicción

Tenemos un modelo de regresión lineal simple:

$\hat{y} = w \cdot X + b$

Donde:

$\hat{y}$ = predicción del modelo
$w$ = peso (weight)
$X$ = variable de entrada (features)
$b$ = bias (intercepto)

Ejemplo numérico:

X = [2, 4, 5]
y_real = [3, 5, 7]

Con w=1 y b=1:
y_pred = 1*[2,4,5] + 1 = [3, 5, 6]

La función de error (ECM)

Necesitamos una función que mida qué tan mal está nuestro modelo:

$ECM = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

Sustituyendo $\hat{y} = wX + b$ :

$ECM = \frac{1}{n} \sum (y - (wX + b))^2$

Esta es nuestra función objetivo que queremos minimizar.

¿Por qué necesitamos derivadas?

Para minimizar el ECM, necesitamos saber:

¿En qué dirección cambiar w? → Necesitamos $\frac{\partial ECM}{\partial w}$
¿En qué dirección cambiar b? → Necesitamos $\frac{\partial ECM}{\partial b}$

La derivada nos dice:

Si es positiva → disminuir el parámetro
Si es negativa → aumentar el parámetro
Si es cero → estamos en el mínimo

La regla de la cadena

Esta es la clave para entender todo. La regla de la cadena dice:

$\frac{df(g(x))}{dx} = \frac{df}{dg} \cdot \frac{dg}{dx}$

En palabras: si una función está compuesta, derivamos “de afuera hacia adentro” y multiplicamos.

Ejemplo simple:

$f(x) = (x + 2)^2$

Esto es una composición:

Función exterior: $u^2$ donde $u = x + 2$
Función interior: $u = x + 2$

Derivada: $\frac{df}{dx} = 2u \cdot 1 = 2(x + 2)$

Derivada del ECM con respecto a w

Vamos paso a paso, sin saltarnos nada.

Paso 1: Escribir la función completa

$ECM(w) = \frac{1}{n} \sum [y - (wX + b)]^2$

Paso 2: Identificar la composición

Tenemos tres niveles:

Función exterior: $(\text{algo})^2$
Función del medio: $y - \text{algo}$
Función interior: $wX + b$

Paso 3: Aplicar la regla de la cadena

Derivamos de afuera hacia adentro:

$\frac{\partial ECM}{\partial w} = \frac{1}{n} \sum \frac{\partial}{\partial w}[y - (wX + b)]^2$

Primera capa: derivar el cuadrado

Usando la regla de la cadena $(u^2)' = 2u \cdot u'$ :

$= \frac{1}{n} \sum 2[y - (wX + b)] \cdot \frac{\partial}{\partial w}[y - (wX + b)]$

Segunda capa: derivar lo de adentro

$\frac{\partial}{\partial w}[y - (wX + b)] = \frac{\partial}{\partial w}[y - wX - b]$

Ahora derivamos término por término:

$\frac{\partial y}{\partial w} = 0$ (y es constante respecto a w)
$\frac{\partial (wX)}{\partial w} = X$ (derivada de $wX$ es $X$ )
$\frac{\partial b}{\partial w} = 0$ (b es constante respecto a w)

Por lo tanto: $\frac{\partial}{\partial w}[y - wX - b] = 0 - X - 0 = -X$

Paso 4: Juntarlo todo

$\frac{\partial ECM}{\partial w} = \frac{1}{n} \sum 2[y - (wX + b)] \cdot (-X)$

$= \frac{1}{n} \sum -2X[y - \hat{y}]$

Reordenando:

$= -2 \cdot \frac{1}{n} \sum X(y - \hat{y})$

$= -2 \cdot \text{mean}[X \cdot (y - \hat{y})]$

¡Esta es la fórmula final!

Derivada del ECM con respecto a b

Ahora hacemos lo mismo pero derivando respecto a b (bias).

Paso 1: Escribir la función

$ECM(b) = \frac{1}{n} \sum [y - (wX + b)]^2$

Paso 2: Aplicar la regla de la cadena

Primera capa: derivar el cuadrado

$\frac{\partial ECM}{\partial b} = \frac{1}{n} \sum 2[y - (wX + b)] \cdot \frac{\partial}{\partial b}[y - (wX + b)]$

Segunda capa: derivar lo de adentro

$\frac{\partial}{\partial b}[y - wX - b]$

Derivamos término por término:

$\frac{\partial y}{\partial b} = 0$ (y es constante)
$\frac{\partial (wX)}{\partial b} = 0$ (wX no depende de b)
$\frac{\partial b}{\partial b} = 1$ (derivada de b es 1)

Por lo tanto: $\frac{\partial}{\partial b}[y - wX - b] = 0 - 0 - 1 = -1$

Paso 3: Juntarlo todo

$\frac{\partial ECM}{\partial b} = \frac{1}{n} \sum 2[y - (wX + b)] \cdot (-1)$

$= -2 \cdot \frac{1}{n} \sum [y - \hat{y}]$

$= -2 \cdot \text{mean}[y - \hat{y}]$

¡Esta es la fórmula final para el bias!

Comparación lado a lado

Parámetro	Derivada	Intuición
w (peso)	$-2 \cdot \text{mean}[X \cdot (y - \hat{y})]$	Multiplicamos por X porque w está multiplicando a X
b (bias)	$-2 \cdot \text{mean}[y - \hat{y}]$	No multiplicamos por nada porque b es solo una suma

La diferencia clave:

Para w: aparece la X porque w multiplica a X en la predicción
Para b: no aparece X porque b solo se suma