William Arevalo Data Scientist & Full-Stack Developer

About Me Projects Blog


Regresión lineal

Machine LearningMay 10, 2018

Es sabido que los grillos cantan con más frecuencias en los días de más calor. Durante décadas, entomólogos profesionales y aficionados han catalogado datos sobre la cantidad de cantos por minuto y la temperatura. Para tu cumpleaños, la tía Ruth te regaló su amada base de datos sobre grillos y te invita a que aprendas un modelo para predecir dicha relación.

En primer lugar, es necesario realizar una representación de los datos para examinarlos:

Figura 1. Cantos por minuto contra temperatura

Efectivamente, la representación muestra que la cantidad de cantos aumenta con la temperatura. ¿Es lineal la relación entre los cantos y la temperatura? Sí, ya que es posible dibujar una línea recta como la siguiente para representar dicha relación:

Figura 2. Una relación lineal

Si bien la línea no pasa perfectamente por cada punto, demuestra con claridad la relación entre la temperatura y los cantos por minuto para dichos puntos. Si aplicamos un poco de álgebra, podemos determinar esta relación de la siguiente manera:

y=mx+b

donde:

y es la temperatura en grados centígrados, correspondiente al valor que intentamos predecir.

m es la pendiente de la línea.

x es la cantidad de cantos por minuto, correspondiente al valor de nuestro atributo de entrada.

b es la intersección en y.

Según las convenciones del aprendizaje automático, la ecuación para un modelo se escribirá de una forma un poco diferente:

y′=b+w1x1

donde:

y′ es la etiqueta predicha (un resultado deseado).

b es la ordenada al origen (la intersección en y). En alguna literatura de aprendizaje automático, se hace referencia a ella como w0.

w1 es la ponderación del atributo 1. La ponderación es el mismo concepto de la “pendiente” m, que se indicó anteriormente.

x1 es un atributo (una entrada conocida).

Para inferir (predecir) la temperatura y′ para un valor nuevo de cantos por minuto x1, solo agrega el valor de x1 a este modelo.

Los subíndices (p. ej., w1 y x1) indican modelos más sofisticados que se basan en varios atributos. Por ejemplo, un modelo que se basa en tres atributos usaría la siguiente ecuación:

y′=b+w1x1+w2x2+w3x3



photo

William Arevalo

Data Scientist • Bogotá, CO • willarevalo.developer@gmail.com

Passionate Data Scientist | Scrum amateur | Pentester | Services Admin | Calisthenics devotee

I always keep in constant learning and evolution
I don't stop.