Machine LearningMay 10, 2018
¿Cómo se reduce la pérdida?
La derivada de (y - y’)2 con respecto a los pesos y sesgos nos indica cómo cambia la pérdida en un ejemplo determinado:
Es simple de computar y convexa.
Por lo tanto, tomamos pasos pequeños reiteradamente en la dirección que minimiza la pérdida:
Los llamamos pasos de gradiente (aunque en realidad son pasos de gradiente negativos).
Esta estrategia de optimización se denomina descenso de gradientes.
Ejercicios que te ayudaran a contextualizar mas la perdida y como reducirla AQUÍ
La gradiente se podría calcular en todo el conjunto de datos en cada paso, pero esto es innecesario:
El cálculo de la gradiente en pequeñas muestras de datos funciona bien.
En cada paso, se debe obtener una nueva muestra al azar.
Descenso de gradiente estocástico: Se toma un ejemplo por vez.
Descenso de gradientes de minilote: Se usan lotes de 10 a 1000.
La pérdida y las gradientes se promedian en el lote.
Passionate Data Scientist | Scrum amateur | Pentester | Services Admin | Calisthenics devotee