| Artículos | 01 ENE 2005

Cómo usar la hoja de cálculo para analizar datos y obtener estadísticas

Tags: Histórico
Rodolfo de Benito.
Aunque existe software especializado en estadística como spss, statgraphics o minitab, no todos los usuarios necesitan la potencia de estos paquetes. las hojas de cálculo actuales cuentan con un elevado número de funciones y otras herramientas de análisis que le ayudarán a afrontar algunos cálculos estadísticos sencillos como, por ejemplo, contrastar hipótesis o predecir resultados. siguiendo la filosofía de esta sección, no pretendemos otra cosa que ofrecer al lector soluciones tipo how-to, quedando fuera de nuestro alcance la definición de los términos estadísticos que aquí utilizamos.

Cómo calcular estadísticas descriptivas básicas
Suponga que disponemos del número de visitas diarias en el mes de diciembre a la página web de PC World y a la de iWorld. Nuestro objetivo es compararlas y sacar algunas conclusiones, pero para ello es insuficiente realizar una media de visitas de ambas páginas. Piense que el promedio es muy sensible a los valores extremos y podríamos llegar a conclusiones erróneas. Lo más aconsejable es realizar una estadística descriptiva básica que nos informe, mediante resúmenes numéricos, de cómo se distribuyen estos datos respecto al centro y de su dispersión.
Dichos resúmenes pueden ser los que se ven en la tabla adjunta, en la que se supone que los datos sobre la página de PC World están en las celdas A3:A33 y las de iWorld en B3:B33.
En el resumen numérico podemos ver, por ejemplo, que la dispersión de datos es un poco mayor en las visitas de iWorld (tiene una desviación típica mayor) y que en el 75% de los días se concentran más visitas en PC World (2.787) que en iWorld (2.490).
Si utiliza Excel, es importante que active Herramientas para análisis en el menú Herramientas » Complementos para disponer de acceso a un paquete de funciones más completo y tener habilitado el menú Análisis de datos.
Además de las funciones vistas, Excel y Quattro Pro generan automáticamente un resumen descriptivo más completo seleccionando en el menú Herramientas » Análisis de datos » Estadística descriptiva y Herramientas Numéricas » Herramientas de análisis » Estadística descriptiva, respectivamente. En la figura adjunta puede ver el análisis de datos realizado por Excel (el de Quattro Pro es muy similar). Tenga en cuenta que Excel utiliza en el análisis de datos la cuasivarianza y la cuasidesviación típica, pero para el cálculo de la varianza y la desviación típica se deben utilizar las funciones VARP y DESVESTP.

Cómo dibujar un diagrama de cajas o boxplot en Excel
Una de las funciones comentadas anteriormente es Cuartil, que permite obtener los cinco números resumen de una distribución: mínimo, cuartil primero, la mediana (o cuartil segundo), cuartil tercero y el máximo. Recuerde que el mínimo se puede calcular como =cuartil(datos;0) y el máximo como =cuartil(datos;4).
Para representar gráficamente estos cinco números se utiliza el diagrama de cajas o boxplot. OpenOffice y Star­Office disponen de un tipo de gráfico similar denominado Diagrama de curso y la hoja de cálculo Quattro Pro cuenta con el de Máximos y mínimos. Desafortunadamente, no ocurre lo mismo con Excel.
En este truco aprenderá a crear un diagrama de cajas en Excel a partir de uno de líneas y para ello utilizaremos los datos del ejemplo presentado en el truco anterior. Tenga en cuenta que, para hacer el gráfico, es imprescindible que los cálculos estén situados en este orden: Cuartil primero, Mínimo, Cuartil segundo, Máximo y Cuartil tercero. Es decir, igual que aparece en la tabla adjunta.
Seleccione los datos a representar incluyendo los nombres de las funciones y los títulos de las columnas y elija en el menú Insertar » Gráfico. En el asistente actúe como con cualquier otro gráfico pero eligiendo el tipo Líneas y el cuarto subtipo (por defecto) e indicando que las series son en Filas (segundo paso del asistente).
Una vez generado el gráfico de líneas hágale estas modificaciones para transformarlo en un diagrama de cajas:
1. Con el objetivo de eliminar las líneas que unen los puntos de la misma serie, realice un doble clic en una línea (por ejemplo la del cuartil primero) y, en la solapa Tramas, seleccione la opción Ninguna del grupo Línea.
2. Repita la operación anterior con las series restantes hasta eliminar las cinco líneas.
3. Haga nuevamente doble clic en un punto cualquiera de las series para acceder al cuadro de diálogo Formato de la serie de datos, seleccione la solapa Opciones y marque las casillas Líneas de máximos y mínimos y Barras ascendentes o descendentes.

Cómo generar histogramas
Disponemos del tiempo de conexión en minutos de una muestra de cincuenta y cinco usuarios que navegaron por la página web de PC World y nos interesa conocer la distribución de las frecuencias. Por ejemplo, para averiguar qué porcentaje de la muestra estuvo conectado a la página treinta minutos como máximo.
Para ello generaremos automáticamente un histograma de frecuencias absolutas y frecuencias absolutas acumuladas junto con un gráfico que represente ambas. Previamente teclearemos en celdas contiguas los intervalos que queremos considerar. Por ejemplo si son de diez minutos y hasta 60 escribiremos: 10, 20, 30, 40, 50, 60, de tal manera que el histograma nos indicará cuántos usuarios se conectaron de 0 a 9 minutos, cuántos de 10 a 19, etc.
Veamos cómo llevarlo a cabo con Excel:
1. Seleccione en el menú Herramientas » Análisis de datos » Histograma. Recuerde que Análisis de datos sólo está disponible si tiene habilitadas las Herramientas para análisis (vea el primer truco).
2. Pulse el botón Rango de entrada y seleccione las celdas que contienen los datos a distribuir. En el caso de nuestro ejemplo son los minutos de conexión.
3. Pulse el botón Rango de clases y seleccione los intervalos que quiere representar. En nuestro caso, las celdas que contienen los números 10, 20, ..., 60.
4. Indique dónde desea el histograma: en una celda de la hoja activa (Rango de salida), En una hoja nueva o En un libro nuevo.
5. Active las casillas Porcentaje acumulado y Crear gráfico.
De forma similar puede realizar este proceso en la hoja de cálculo Quattro Pro seleccionando en el menú Herramientas » Herramientas Numéricas » Herramientas de análisis » Histograma. Sin embargo, en Star­Office y OpenOffice tendrá que realizar manualmente los histogramas con ayuda de la función =Frecuencia(Rango_Datos;Rango_clases) para calcular la frecuencia absoluta.

Cómo calcular la media de una población con un intervalo de confianza
Supongamos que pretendemos estimar los minutos medios de navegación que dedican todos los usuarios que acceden a la página web de PC World. Para averiguarlo tenemos dos opciones: contabilizar el tiempo de conexión de todos los usuarios o trabajar a partir de una muestra y encontrar la media con un nivel de confianza determinado.
Este último caso es el que nos interesa, pero ¿qué garantías tenemos de que la media obtenida es la media real de la población? Aquí es donde entra en juego el nivel de confianza (que nosotros fijaremos). Por ejemplo, si obtenemos que la media de conexión pertenece al intervalo (32,37) minutos con una confian

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información