Análisis de datos estadísticos con SPSS para tecnología de los alimentos (Roberto Jiménez)

Este trabajo, enmarcado dentro del campo de la tecnología de los alimentos, tiene como principal objetivo el aprendizaje del manejo del programa estadístico SPSS, así como la utilización de éste para la predicción de determinadas características relacionadas de los alimentos, mediante la utilización de rectas de regresión múltiples. El uso de la última versión de este programa permite importar a un documento de texto todos los resultados obtenidos para un mejor tratamiento de estos.

Antes de realizar cualquier tipo de análisis de los datos que se tienen, hemos realizado una normalización de las variables, para poder trabajar con unos valores ya tipificados.
La tipificación de variables consiste en que cuando tenemos una serie de variables con valores distribuidos a lo largo de la recta real, debemos tipificarlos si queremos trabajar con valores que estén dentro de un rango, para así trabajar con mayor facilidad de cálculo. Para ello se aplica la siguiente fórmula:

Utilizando el SPSS hay que realizar los siguientes pasos:
1- Hacer clic en analizar
2- Estadísticos descriptivos
3- Descriptivos
4- GuardarValoresTipificadosComoVariables

Tras realizar esta operación se crean nuevas variables tipificadas, una por cada una de las variables que teníamos anteriormente.

Después de realizar esta operación se han realizado unas pruebas de normalidad, para poder observar si estas variables se ajustarían o no a una regresión normal. Para realizar este tipo de análisis usamos las variables tipificadas que hemos generado anteriormente. En principio la parte interesante de este análisis sería comprobar en el test de Kolmogorov-Smirnov que la significancia sea mayor de 0,05 para ver que las variables son normales. Los test de normalidad se aplican a conjuntos de datos para determinar su similitud con una distribución normal. La hipótesis nula es, en estos casos, si el conjunto de datos es similar a una distribución normal, por lo que un P-valor suficientemente pequeño indica datos no normales.

En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad entre sí.

En el caso de que queramos verificar la normalidad de una distribución, la prueba de Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en general, las pruebas Shapiro-Whik o Anderson-Darling son alternativas más potentes.

Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos a la mediana que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual sensibilidad con valores extremos.

La distribución de los datos Fn para n observaciones yi se define como:

Para dos colas el estadístico viene dado por:

donde F(x) es la distribución presentada como hipótesis.

El test de K-S se realiza con el SPSS de la siguiente forma:
1- Analizar
2- Estadísticos descriptivos
3- Explorar
4- Seleccionamos gráficos
5- Dentro de gráficos escogemos solamente la opción “Gráficos con pruebas de Normalidad”

Tras realizar este análisis se procedió a realizar el análisis de conglomerados. Se trata de una técnica multivariante que busca agrupar elementos (o variables) tratando de lograr la máxima homogeneidad en cada grupo y la mayor diferencias entre los grupos.

El dendograma es la representación gráfica que mejor ayuda a interpretar el resultado de un análisis clúster.

El análisis de conglomerados se puede combinar con el Análisis de Componentes Principales, ya que mediante ACP se puede homogeneizar los datos, lo cual permite realizar posteriormente un análisis clúster sobre los componentes obtenidos.

Analizando los resultados que nos da este análisis, observamos que existen diferentes características que nos permiten agrupar con una precisión mayor, estas variables en una categoría u otra que se establece mediante una variable de etiquetado.

El análisis de conglomerados se realizaría usando el SPSS de la siguiente forma:
1- Analizar
2- Clasificar
3- Conglomerado Jerárquico
4- Elegimos las variables que vamos a intentar clasificar
5- Definimos como variable de etiquetado aquella que deseamos que sea la variable discriminante

Para finalizar se han realizado predicciones de variables usando rectas de regresión multivariables, en la que hemos escogido como variables dependientes aquellas que estamos intentando predecir, y como variables independientes todas las características que tenemos. Se trata de un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

donde β0 es la intersección o término «constante», las X son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

Con el SPSS se realizarían de la siguiente forma:
1- Analizar
2- Regresiones
3- Lineales
4- Elegimos como variable dependiente la variable a predecir
5- Elegimos las variables independientes

Después de esto quedarían por hacer análisis discriminante, así como la realización de pruebas no paramétricas. Todas las operaciones anteriormente descritas se han realizado con 3 paquetes de datos distintos, pudiendo observar resultados diferentes, dependiendo de las características de las variables analizadas.

pablogarguez

@pablogarguez es actualmente Director General de Agenda Digital de la Consejería de Economía, Ciencia y Agenda Digital de la Junta de Extremadura, desde septiembre de 2019, siendo responsable básicamente de la Conectividad y la Transformación Digital en consonancia con la políticas de la Unión Europea. Fue Director de la Escuela Politécnica de Cáceres (School of Technology) de la Universidad de Extremadura durante 3 años (2017-2019), con titulaciones de grado, máster y doctorado en los campos de Ingeniería Civil, Edificación, Informática y Telecomunicaciones. Su trayectoria docente comienza en 1997 en la Universidad de Extremadura con su centrada en asignaturas de Programación en Ingeniería Informática y en el campo de las Bases de Datos y los Sistemas de Información. En el año 2000 defendió su tesis doctoral en la Universidad de Extremadura, que es la primera con mención de Tesis Europea de la Universidad, obteniendo el título de Doctor en Ingeniería Informática por la UEx. Su actividad investigadora se ha centrado en las áreas de Ciberseguridad, el BigData, el Internet de las Cosas (IoT), la Visión por Computador y el desarrollo de técnicas de Reconocimiento de Patrones y Análisis de Imagen. Fruto de esta labor de investigación, resaltar que es coautor de más de veinte artículos publicados en revistas internacionales indexadas en JCR, con un índice H de 12 en cuanto a las citas conseguidas por estos artículos. Actualmente tiene 3 sexenios de investigación a nivel nacional, y el último de ellos es un sexenio vivo (activo). También posee un sexenio de transferencia de los nuevos habilitados por el Ministerio (2019).

Una respuesta a “Análisis de datos estadísticos con SPSS para tecnología de los alimentos (Roberto Jiménez)”

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *