martes, 23 de febrero de 2016

La técnica de agregación de sondeos

Los ciudadanos se están viendo sometidos desde el año pasado a un bombardeo de sondeos electorales con dispares resultados sobre las potenciales elecciones a celebrar, por lo que terminan por concluir que las encuestas no sirven para nada, que es lo mismo que opinan los políticos…cuando les son desfavorables. Dado lo dispar de algunos de estos sondeos no resulta extraño que los electores acaben por ver oscuros manejos en algunos de ellos. A continuación describiré algunos problemas en la estimación de resultados electores, así como la técnica que considero más fiable para conocer el estado de opinión latente en un momento dado: la agregación de sondeos y la estimación de resultados a través de un estimador robusto como es la trimedia.

Para determinar la fiabilidad de una encuesta es preciso conocer su metodología de trabajo, y lamentablemente la mayor parte de los sondeos esconden u ocultan datos fundamentales para diferenciar un sondeo técnicamente correcto de otro que no lo sea. Toda encuesta, para ser digna de crédito, debe indicar el número de entrevistados, si la entrevista es presencial o telefónica, la intención directa de voto, la simpatía política, el recuerdo de voto, la tasa de respuesta, la estrategia de rellamada o la regla de sustitución. Igualmente, la muestra debe estar bien segmentada por edad, sexo, residencia, creencias y estatus social de los electores. Incluso en los sondeos fiables que cumplen con estos requisitos, la diferencia entre la intención directa y la estimación del voto es atribuida por muchos a una “cocina” realizada con oscuras intenciones. En realidad, todas las encuestas serias corrigen los resultados obtenidos en la intención directa de voto. ¿Por qué?
 
La Intención directa de voto (IDV) es la respuesta más inmediata y espontánea al  preguntar a quién se votaría si las elecciones tuviesen lugar mañana. A esta pregunta directa suele responder alrededor del 60% de los encuestados, pero sabemos que parte del otro 40% acude finalmente a votar el día de las elecciones. Para obtener una representación fiel del resultado electoral es preciso asignar un voto probable a quienes no contestan a la pregunta directa. Para ello, se les pregunta por el partido con el que sienten más afinidad o con el que se identifican en mayor medida: esta respuesta constituye la “Simpatía” que, en la segunda columna, se suma a la IDV. Para que esta columna se pudiera extrapolar como estimación de resultados, la muestra (las personas encuestadas) tendría que reproducir exactamente el universo de los votantes potenciales. Algo imposible, ya que al seleccionar la muestra no se puede saber, a priori, el voto de los encuestados, puesto que es secreto. Sin embargo, en las encuestas bien realizadas se pregunta igualmente por el recuerdo de voto de las pasadas elecciones, lo que nos permite detectar una muestra no representativa (con más o menos votantes de un partido de lo que debería), o con voto oculto. En ambos casos, los resultados deben ser tratados y corregidos para que se asemejen lo más posible a la realidad. Aquí entra la famosa “cocina” de las encuestas que, si es profesional, no solo es adecuada sino imprescindible. Siempre que una investigación sea metodológicamente sólida, con una muestra representativa y aplique a los datos los pertinentes ajustes post-encuesta, es posible aproximarse a un buen pronóstico de los resultados electorales.
 
Sin embargo, dado que la mayor parte de los sondeos cometen sesgos y errores introducidos por la metodología muestral de cada agencia encuestadora, la mejor forma para reducirlos es utilizar la técnica de agregación de sondeos, es decir “sumar” alguna manera todas las encuestas realizadas en un periodo de tiempo relativamente reducido. Esta “suma” nos permite trabajar con un número mayor de encuestados y reducir la volatibilidad en las predicciones. Hay un buen número de sitios Web que presentan los resultados de lo que llaman “encuesta de encuestas”, pero todas ellas basan sus predicciones en calcular la media aritmética de los resultados pronosticados por diferentes encuestadoras. Se diferencian unos de otros en el “peso” que le dan a cada encuesta según la lejanía en el tiempo, el acierto en el pasado, el número de encuestas realizadas, y otros mecanismos correctores, pero todas ellas coinciden en calcular la media, ponderándola o no por alguno de los factores mencionados, para ofrecernos sus resultados. Creo que, mientras que la técnica de agregación de sondeos per se es una técnica correcta para reducir los errores muestrales y de cocina de las distintas encuestadoras, el hecho de utilizar la media como instrumento de agregación constituye un error.
 
¿Por qué? La media (aritmética) consiste simplemente en sumar todos los valores y dividir dicha suma se divide por el número de valores utilizados en la suma. Es un estimador clásico muy utilizado, especialmente en economía (renta per cápita, por ejemplo), pero estadísticamente muy poco robusto, ya que es una medida muy sensible a los valores extremos. Los  valores atípicos muy elevados la aumentan mientras que los muy pequeños la reducen. En otras palabras, es muy sensible a los errores. Cuando hay valores atípicos en los datos, los resultados producidos por los métodos clásicos son a menudo de baja calidad. Puede funcionar bien para valores homogéneos, pero cuanto menos homogéneos sean los datos, menos información o información más errónea proporciona. En su lugar, creo que resultaría más acertado utilizar estimadores más robustos y menos sensibles a valores atípicos como la mediana y la trimedia.
 
La mediana representa el valor de la variable de posición central en un conjunto de datos ordenados. Así, la mediana del siguiente conjunto de datos ordenados (9, 5, 4, 4, 4, 4, 3, 3, 3) sería “4” (el valor central, en la 5ª de las nueve posiciones), mientras que la media sería “4,67” (42/9). Se trata del indicador más resistente a la contaminación de los datos, ya que a menos que más de la mitad de los datos sean atípicos, la mediana no dará un resultado arbitrariamente abultado. Suele obtener óptimos resultados cuando la distribución se distribuye de forma más o menos simétrica alrededor de la mediana, pero algo menos cuando la distribución de datos no es simétrica.
 
Que las estimaciones de resultados electorales utilizando la mediana como método de agregación de encuestas son más fiables que si se utiliza la media, ha sido experimentado y publicado con motivo de las elecciones presidenciales de Estados Unidos en 2004. En ese caso, utilizando la mediana de las encuestas realizadas durante el último mes, el experimento acertó el ganador de 46 de los 50 estados de la Unión y la mediana resultó especialmente acertada en aquellos estados donde la pugna estaba más ajustada, así como en aquellos donde existían pocas encuestas disponibles. De hecho, de los 39 sitios Web que realizaban predicciones electorales de voto, solo uno mejoró los resultados de la utilización de la mediana para agregar las encuestas del último mes.
 
En cuanto a la trimedia (TM) es la media ponderada de la mediana y la media de los cuartiles, es decir, si se ordenan los datos sería (Q2 + (Q1+Q3)/2)/2; donde la mediana es el segundo cuartil (Q2, el valor que está en el 50% de la distribución), mientras que los cuartiles (Q1 y Q3) son los valores que están en el 25% y el 75% de la distribución, respectivamente. En nuestro ejemplo (9, 5, 4, 4, 4, 4, 3, 3, 3); Q1 = 4 (el tercer valor), Q2 = 4, Q3 = 3 (el séptimo valor), de donde se obtiene que la trimedia es (4 + (4+3)/2)/2) = 3,75. Se trata de un estadístico resistente, pues el menos el 25% de los datos deben ser atípicos para que su resultado se vea afectado y, aunque menos resistente que la mediana, tiene la ventaja respecto a ésta que se acerca a una estimación más fidedigna en las distribuciones no simétricas. Así pues, la trimedia es una medida de tendencia central que combina el énfasis de la mediana en los valores centrales de una distribución con la atención a valores más extremos de los intercuartiles. Y a despecho de su simplicidad, su eficiencia (una medida de su optimalidad) es muy elevada (y mayor que la de la mediana) conservando una gran robustez ante valores atípicos.
 
¿Cómo se aplica todo esta teoría en la práctica? Veamos un ejemplo con las encuestas realizadas en España durante el mes de febrero de 2016. En la siguiente tabla se muestran los resultados de la agregación de encuestas utilizando los tres métodos analizados (media, mediana y trimedia).
 


Como se observa, la predicción de resultados experimenta variaciones sustanciales entre los diferentes partidos según cada encuesta. Durante el mismo mes de febrero, la estimación de voto del PP oscila entre el 24,0% de Metroscopia y el 28,9% de NC Report, casi 5 p.p.; la del PSOE entre el 20,8% de GAD3 y el 23,3% de Metroscopia, 2,5 p.p. de diferencia entre los extremos; la de Podemos varía entre el 18,8% de Sigma-Dos y el 22,3% de GIPEyOP, 3,5 p.p. de variación; la estimación de voto de Ciudadanos oscila entre el 14,2% de NC Report y el 18,9% de Simple Lógica, 4,7 p.p. de oscilación; incluso IU, con un porcentaje absoluto de voto mucho menor que el resto de partidos, varía entre un mínimo del 3,2% de GIPEyOP y un máximo del 5,1% de Simple Lógica; por último, el porcentaje de voto atribuido al resto de partidos oscila entre el 7,1% de Simple Lógica y el 11,7% de GAD3. El resultado de Simple Lógica para el resto de partidos es claramente atípico, ya que es el único que no está dentro del rango del 10%-11% del resto de encuestas, además de que creo que jamás en ninguna elección general en España (y seguro en las últimas elecciones) los partidos digamos “menores” han obtenido menos de un 10% de los votos.
Como se observa, algunas encuestas se mencionan varias veces en lo que respecta a valores extremos: Simple lógica asigna el mínimo de votos al resto de partidos y el máximo a Ciudadanos e IU, y muestra valores extremos tres veces, mientras que Metroscopia, NC Report, GAD3, y GIPEyOP muestran valores extremos para algún partido dos veces. Celeste-Tel e Invymark no ofrecen nunca valores extermos.
Naturalmente, el cálculo de la estimación agregada utilizando la media se ve afectada por estos valores extremos, lo que no ocurre ni con la mediana ni con la trimedia. Dado que disponemos hasta la fecha de nueve encuestas publicadas durante el mes de febrero, la mediana de la estimación de voto para cada partido correspondería con el valor 5º de los 9 existentes una vez ordenados de mayor a menor. La trimedia utilizaría los valores 3º (correspondiente al Q1), 5º (Q2) y 7º (Q3), otorgando la mitad de la ponderación a la mediana (Q2) y la mitad a la media de los otros dos cuartiles (Q1 y Q3).
Como resultado, si comparamos entre los tres estimadores descritos, la media estima valores máximos para el PSOE, C’s e IU y mínimos para PP y Podemos, aunque las diferencias con la mediana y la trimedia son más relevantes en el caso del PP (entre 0,4 y 0,6 p.p) y C’s (entre 0,6 y 0,8 p.p.). En cuanto a la mediana y la trimedia, o no existen diferencias entre ellas (PSOE e IU) o son menos relevantes que las que tienen con la media (una décima en el caso de Podemos, dos en PP y C’s y tres en otros), tal y como por otra parte sería esperable por la construcción de ambas. La existencia de diferencias o no entre las estimaciones resultantes de la agregación de encuestas utilizando la mediana y la trimedia lo que muestra es que, en el caso de algunos partidos (PP, C’s y otros), la distribución de datos no es simétrica sino que existe un sesgo a la baja (PP) o al alza (C’s y otros), mientras que en el caso de PSOE, Podemos e IU las distribuciones de datos resultan aproximadamente simétricas, esto es, existen tantos datos y en una cuantía similar tanto por encima como por debajo de la mediana, lo que permite establecer un mayor margen de confianza en las estimaciones.
En conclusión, en mi opinión la utilización de la trimedia en lugar de la media como estimador resulta relativamente sencilla de calcular, y de una gran eficiencia y robustez ante valores atípicos, lo que la haría aconsejable en la predicción de resultados electorales. Al menos yo la pienso utilizar en mis predicciones. En el caso que nos ocupa, la estimación de voto durante el mes de febrero de 2016, nada menos que tres de las nueve encuestas deberían ofrecer resultados atípicos para que la trimedia se viera afectada de algún modo, y aun así, su impacto se vería reducido a apenas un 25% de la estimación, dado el mayor peso que se concede al valor central en el cálculo de la misma. Creo, pues, que resultaría más acertado utilizar la trimedia como estimador en lugar de la media, como hacen prácticamente todos los sitios Web dedicados a la agregación de encuestas en España.