¿Cómo realizar una regresión lineal en la programación R?

La regresión lineal es el método preferido en estadística. Se utiliza principalmente para cuantificar la correlación entre variables predictivas y reactivas únicas o múltiples. Simple regresión lineal en R. es la principal forma de regresión lineal que también se utiliza para cuantificar la relación entre variables predictivas y reactivas únicas o múltiples. Si tiene múltiples predictores, siempre es mejor usar la regresión lineal múltiple. A continuación, enumeramos cómo usar la regresión en R, pero antes de llegar a los detalles, tomemos un ejemplo real de una regresión lineal.

Índice de contenidos
  1. Un ejemplo real de regresión lineal
  2. Regresión lineal simple en R.
  3. Conjunto de datos de salarios
  4. Un diagrama de dispersión del conjunto de datos dado será:
  5. Mínimos cuadrados para una línea recta
    1. La sintaxis utilizada para el análisis de regresión lineal en R es:
    2. Ejemplo de regresión lineal simple en R.
    3. Visualización de los resultados del conjunto de pruebas:
  6. Conclusión

Un ejemplo real de regresión lineal

Varias empresas utilizan principalmente técnicas de regresión lineal para comprender la relación entre los ingresos y la inversión publicitaria. Por ejemplo, Las empresas analizan los modelos de regresión lineal considerando la inversión publicitaria como predictor de los ingresos como variable de respuesta. Por lo tanto, los modelos de regresión lineal considerados como:

ingresos = β0 + β1 (gasto en publicidad)

Dónde está,

los β0 coeficiente = ingresos totales esperados (en caso de que el gasto publicitario sea cero).

los β1 coeficiente = cambio promedio en los ingresos (si la inversión publicitaria aumenta en una sola unidad).

Ahora, hay 3 casos diferentes relacionados con el β1 coeficiente:

  1. Cuando β1 es negativolo que significa que la inversión publicitaria máxima está asociada con los ingresos mínimos.
  2. Cuando β1 es más cerca de cerolo que significa que una menor inversión publicitaria tiene un menor impacto en los ingresos.
  3. Y cuando β1 es positivolo que significa que más gastos de publicidad están asociados con los ingresos máximos.

Por lo tanto, se puede resumir que, en función del valor β1 de los modelos, una empresa puede decidir fácilmente si aumenta o disminuye el gasto en publicidad.

Regresión lineal simple en R.

La regresión lineal simple permite al usuario concluir y estudiar la corrección entre las dos variables cuantitativas (continuas). Aquí se indica una variable con X y consideradas variables independientes, mientras que otra viene indicada por y como variable dependiente. Se supone que dos variables diferentes están linealmente relacionadas. Aquí encontraremos un regresión lineal en R.que predice el valor reactivo (y) como función o como variable independiente (x).

Por ejemplo, A continuación se presenta un conjunto de datos de compensación en el que se consideran los valores de la variable dependiente (salario) para cada variable independiente (Años de experiencia).

Conjunto de datos de salarios

Años de experiencia Salario
1.1 39000.00
1.3 46,000.00
1.5 37,000.00
2.0 43,000.00
2.2 39000.00
2.9 56,000.00
3.0 60,000.00
3.2 54,000.00
3.2 64,000.00
3.7 57,000.00

Aquí, hemos definido variables para n observaciones (en el ejemplo dado n = 10):

X Sea un factor característico donde x = [x_1, x_2, …, x_n],

y sea ​​un vector variable de respuesta, donde y = [y_1, y_2, .., y_n]

Un diagrama de dispersión del conjunto de datos dado será:

(edite esta imagen ya que está tomada de "geek for geek")

Ahora puede encontrar la línea, que se ajusta fácilmente al gráfico de dispersión mencionado anteriormente. La línea más adecuada se conoce como "línea de regresión"Y su ecuación se da como:

y = a + bx

Dónde está,

X son los valores de las características,

y es el valor de la variable de respuesta esperada,

a es el intercepto en y,

Y b es la pendiente.

Ahora bien, para realizar los modelos predictivos, es necesario evaluar los valores tanto de a como de b. Recuerda que en cuanto seas capaz de estimar los valores de ambos coeficientes, podrás predecir rápidamente los valores de los modelos reactivos. Ahora usaremos el Técnica de mínimos cuadrados. Aquí, consideramos el principio de mínimos cuadrados para encontrar el valor de la curva que se ajusta dentro de un dato dado. Aquí, calculamos el valor de una curva usando:

y = f(x)…..1

A x = x1, cuando el valor estimado de y es y1, el valor esperado será f (x1). El residuo también se define como:

e1 = y1-f (x1) ... (2)

De igual forma, los valores de los demás residuales serán:

e2 = y2-f (x2) ... (3)

o

it = yn-f (xn)….(4)

Al evaluar el valor residual, encontramos que hay algunos de los residuales que tienen un valor positivo y negativo. Ahora comprobaremos los valores más adecuados de la curva en cualquier punto donde xi sea mínimo. Como hemos dicho, algunos residuos serían positivos o negativos; por lo tanto, debemos considerar ambos para obtener un resultado deseable al considerar la suma cuadrada de cada residuo. Luego, consideraremos la siguiente fórmula para obtener la mejor curva representativa:

Mínimos cuadrados para una línea recta

Supongamos que tenemos un conjunto de datos (x1, y1), (x2, y2), (x3, y3 .. (xn, yn) de n observación. Y estás tratando de ajustar una línea recta.

y = a + bx

Entonces, considera:

ei = yi- (axi + b), donde i = 1,2,3… n.

Ahora, la suma del cuadrado de ei será:

Recuerda: Y consideremos en función de los parámetros a y b. Necesitamos calcular el valor de a y b para que E sea mínimo y todas las condiciones requeridas para E sean mínimas:

Esta condición dará valores como:

Las dos ecuaciones mencionadas anteriormente se conocen como "ecuaciones normales" solía obtener a & b. Por lo tanto, la expresión de E puede escribirse como:

La sintaxis utilizada para el análisis de regresión lineal en R es:

yo soy (y ~ modelo)

Aquí, y considera un objeto que contiene las variables dependientes que se predijeron y la fórmula para los modelos matemáticos particulares. Luego, el comando lm () ofrece los valores de los coeficientes de los modelos especificados sin más detalles estadísticos.

Ejemplo de regresión lineal simple en R.

# Regresión lineal en R. # Importar conjunto de datos como
dataset = read.csv ('salary.csv') # Divide el conjunto de datos dado en un conjunto específico # Test Set y Practical Set
instalar.paquetes ('caTools')
# llamar a la biblioteca
biblioteca (caTools) split = ejemplo.split (conjunto de datos $ Salario, SplitRatio = 0.2) conjunto de prueba = subconjunto (conjunto de datos, dividir == FALSO) conjunto de prácticas = subconjunto (conjunto de datos, dividir == REAL) # Ajustar el valor de la regresión lineal en R al conjunto práctico dado
lm.r = lm (fórmula = Salario ~ Años de experiencia, dato = conjunto práctico) coef (lm.r) # Para predecir el valor de todos los resultados del conjunto de pruebas
ypred = predecir (lm.r, newdata = testset) install.packages ("ggplot2") biblioteca (ggplot2) # Mostrar el resultado del conjunto práctico
ggplot () + geom_point (aes (x = conjunto práctico $ Años de experiencia, y = conjunto práctico $ Salario), color = 'rojo') + geom_line (aes (x = conjunto práctico $ Años de experiencia, y = predicción (lm.r, newdata = conjunto práctico) ), color = 'azul') + ggtitle ('Salario vs Experiencia (Conjunto práctico)') +xlab("Años de experiencia") +ylab('Salario') # Visualización de los resultados del conjunto de pruebas
ggplot () + geom_point (aes (x = conjunto de prueba $ ExperienceYears, y = conjunto de prueba $ Salary), color = 'red') + geom_line (aes (x = conjunto práctico $ ExperienceYears, y = predict (lm.r, newdata = conjunto práctico) ), color = 'azul') + ggtitolo("Salario vs Experiencia (Conjunto de prueba)") + xlab("Años de experiencia") + ylab('Salario')Salida para coef (lm.r):
Interceptar años de experiencia24885.93 10369.32

Visualización de los resultados del Conjunto Práctico:

(editar esta imagen)

Visualización de los resultados del conjunto de pruebas:

Conclusión

La regresión lineal es el tipo más común de análisis predictivo. Su enfoque estadístico se utiliza para estimar la relación entre un conjunto de variables independientes y dependientes de los modelos. Hay varias aplicaciones de la regresión lineal. en la vida diaria, como se usa en granjas, investigación médica, investigación agrícola, análisis de datos y más. En este blog, hemos enumerado cómo puede utilizar regresión lineal en R.. Con su ayuda; puede mejorar su conocimiento de la regresión lineal. Si aún tiene problemas con él, coméntenos en la sección de comentarios a continuación. Nuestros expertos le brindarán una solución inmediata a su pregunta. y también obtenga las mejores asignaciones de programación r de nuestros expertos.

¿Ha sido útil el contenido?

Promedio de puntuación 0 / 5. Votos: 0

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

Más contenido relacionado

Subir