sábado, 5 de mayo de 2018

Estadística.Medidas de centralización y posición.Moda.Media.Rango.Varianza.


ESTADÍSTICA

1.Hacer estadística

Necesidad.

Al poner en práctica una medida social para saber su aceptación. ¿A cuántas personas puede ir dirigida?, ¿cuáles son los distintos niveles?. Frente a una iniciativa como esta, preguntar a toda la población puede agotar los recursos destinados a ella, una encuesta previa puede ahorrarnos algún que otro equívoco.

Población y muestra
Cuando se hace un estudio estadístico el investigador decide si analizará toda la población o una muestra elegida previamente.
Población es el conjunto de individuos, con alguna característica común, sobre el que se hace un estudio estadístico.

La muestra es un subconjunto de la población. Debe elegirse de forma que sea representativa de toda la población en la característica estudiada.

Atributos y variablesCada una de las propiedades o características que podemos estudiar es una variable estadística. Dependiendo de los posibles valores que puedan tomar se clasifican en:






  • Variables cualitativas o atributos. Los valores de la variable no son números sino cualidades, se expresan con palabras.El color, la forma, el sexo,...son ejemplos de variables cualitativas.
  • Variables cuantitativas. Los datos se expresan numéricamente y pueden ser:

    • Discretas. Cada una de las variables solo puede tomar valores enteros (1, 2, 3...). 
      El nº de hermanos, el nº ventanas de casa, el nº colegios de tu población,...
    • Continuas. Pueden tomar cualquier valor de un intervalo dado.Nuestro peso, altura, fuerza, no es posible medirlas con números enteros, la densidad del aire, la velocidad media de los fórmula 1 en una carrera,..

    2.Tablas y gráficos
    Recuento de datos.Es parte del proceso, después de recopilar los datos se procede a su recuento para expresarlos de forma ordenada y para que sea más fácil trabajar con ellos. Generalmente se elabora una tabla como en la simulación de la derecha donde puedes practicar.
    • Frecuencia absoluta, es el nº de veces que aparece un dato. A la de xi la llamaremos fi.
    • Frecuencia relativa, es el cociente entre la frecuencia absoluta y el nº total de datos.
    • Frecuencia acumulada de un dato, es la suma de las frecuencias absolutas de los valores que son menores o iguales que él, la indicaremos con Fi.
      También se pueden calcular las frecuencias relativas acumuladas.
    Diagramas de barras y de sectores
    Los datos estadísticos suelen representarse de forma gráfica, ya que de esta forma podemos hacernos una idea de su distribución de un solo golpe de vista. En función del tipo de variable conviene más usar un tipo de gráfico u otro.
    • Diagrama de sectores, puede aplicarse a cualquier tipo de variable, aunque es el más adecuado en variables cualitativas y para una primera toma de contacto con los valores de una población. Es un círculo dividido en sectores de ángulo proporcional a la frecuencia de cada valor. La amplitud de cada sector se obtiene multiplicando la frecuencia relativa por 360º.
    • Diagrama de barras. También puede aplicarse a cualquier tipo de variable, aunque se considera el idóneo para variables discretas. Cada valor se corresponde con una barra de longitud proporcional a su frecuencia.

    Agrupación de datos en intervalosEn variables continuas, o en discretas cuando el número de datos distintos se hace casi tan grande como el número de datos, y para poder estudiarlos, se hace necesario agruparlos enintervalos o clases, habitualmente de la misma amplitud y como mínimo 4.Por ejemplo, en una población hay casi tantas alturas como individuos pero podemos agruparlos en bajos, medios y altos; también podríamos hacer bajos, medios-bajos, medios-altos y altos, o clasificarlos de 10 en 10 cm, o de 20 en 20...
    • Para representar a todos los datos de un intervalo elegimos un valor, el punto medio del intervalo, se llama marca de clase.
    Cuando los datos vienen agrupados en intervalos se usa para representarlos gráficamente elhistograma. Cada valor se representa con un rectángulo de anchura el intervalo correspondiente y con la altura proporcional a su frecuencia. 


    3. Medidas de centralización y posición
    La media
    Todos los alumnos saben que con un 6 y un 4 tienen de media 5. Pues la media en estadística no es otra cosa que eso, solo que, habitualmente, con más datos.
    Para calcular la media si son pocos los datos, se suman todos y se divide entre el número total. Si son muchos, los tendremos agrupados, entonces se suman los productos de cada dato por su frecuencia absoluta y se divide esta suma por el número total de datos. Se indica con x.



    La moda
    ¿Quién no ha oído alguna vez: "Está de moda ir a...""Se lleva este tipo de pantalón, está de moda", o "Se ha puesto de moda el grupo"..., y todo el mundo entiende que hay una buena cantidad de personas en esas opciones. Así pues, el valor que más frecuencia tenga será"el de moda", aunque puede ocurrir que haya más de uno.


    La modaMo, de una distribución estadística es el valor de la variable que más se repite, el de mayor frecuencia absoluta.

    La mediana y los cuartiles 
    La mediana y los cuartiles, como la media aritmética, sólo se pueden calcular cuando la variable es cuantitativa.

    La medianaMe, es el valor que ocupa la posición central una vez ordenados los datos en orden creciente, es decir, el valor que es mayor que el 50% y menor que el otro 50%.

    La mediana divide la distribución en dos partes con igual nº de datos, si la dividimos en cuatro partes obtenemos los cuartiles, 1º, 2º y 3º, que se indican respectivamente Q1Q2 y Q3.
    Ordenados los datos, el primer cuartil, es mayor que el 25% de estos; el tercer cuartil, mayor que el 75%, y el segundo coincide con la mediana.


    4. Medidas de dispersión

    Rango y Desviación media

    Las medidas de dispersión indican si los datos están más o menos agrupados respecto de las medidas de centralización.
    • Rango o recorrido, es la diferencia entre el mayor y el menor valor de la variable, indica la longitud del intervalo en el que se hallan todos los datos.
    Aunque el rango da una información importante, resulta más interesante calcular cuánto se desvían en promedio los datos de la media.
    Desviación media, es la media de los valores absolutos de las diferencias entre la media y los diferentes datos.



    Varianza y desviación típica

    Es otra forma de medir si los datos están o no próximos a la media y es la más utilizada.

    • La varianza es la media de los cuadrados de las desviaciones.
    • La desviación típica es la raíz cuadrada positiva de la varianza.


    Es importante que entiendas el significado de estas medidas, cuanto mayores sean más dispersos estarán los datos.

    Los intervalos alrededor de la media de amplitud 2 o 4 veces la desviación típica, tienen mucha importancia en estadística por el porcentaje de datos que hay en ellos. En el último punto de la escena puedes observar esto.


    Coeficiente de variación
    Es el cociente entre la desviación típica y la media, se utiliza para comparar las dispersiones de datos de distinta media.Por ejemplo, para 4 y 6, CV=1/5=0,2 y para 101 y 99 es CV=1/100=0.01. En ambos casos la desviación típica es la misma, pero en relación a la media es más importante en el primero. 

    • Tema completo ED@D

    Ver todo lo publicado AQUÍ