Los ciudadanos se están viendo
sometidos desde el año pasado a un bombardeo de sondeos electorales con
dispares resultados sobre las potenciales elecciones a celebrar, por lo que
terminan por concluir que las encuestas no sirven para nada, que es lo mismo
que opinan los políticos…cuando les son desfavorables. Dado lo dispar de
algunos de estos sondeos no resulta extraño que los electores acaben por ver
oscuros manejos en algunos de ellos. A continuación describiré algunos
problemas en la estimación de resultados electores, así como la técnica que
considero más fiable para conocer el estado de opinión latente en un momento
dado: la agregación de sondeos y la estimación de resultados a través de un
estimador robusto como es la trimedia.
Para determinar la fiabilidad de
una encuesta es preciso conocer su metodología de trabajo, y lamentablemente la
mayor parte de los sondeos esconden u ocultan datos fundamentales para
diferenciar un sondeo técnicamente correcto de otro que no lo sea. Toda
encuesta, para ser digna de crédito, debe indicar el número de entrevistados,
si la entrevista es presencial o telefónica, la intención directa de voto, la
simpatía política, el recuerdo de voto, la tasa de respuesta, la estrategia de
rellamada o la regla de sustitución. Igualmente, la muestra debe estar bien
segmentada por edad, sexo, residencia, creencias y estatus social de los
electores. Incluso en los sondeos fiables que cumplen con estos requisitos, la
diferencia entre la intención directa y la estimación del voto es atribuida por
muchos a una “cocina” realizada con oscuras intenciones. En realidad, todas las
encuestas serias corrigen los resultados obtenidos en la intención directa de
voto. ¿Por qué?
La Intención directa de voto
(IDV) es la respuesta más inmediata y espontánea al preguntar a quién se votaría si las
elecciones tuviesen lugar mañana. A esta pregunta directa suele responder
alrededor del 60% de los encuestados, pero sabemos que parte del otro 40% acude
finalmente a votar el día de las elecciones. Para obtener una representación
fiel del resultado electoral es preciso asignar un voto probable a quienes no
contestan a la pregunta directa. Para ello, se les pregunta por el partido con
el que sienten más afinidad o con el que se identifican en mayor medida: esta
respuesta constituye la “Simpatía” que, en la segunda columna, se suma a la
IDV. Para que esta columna se pudiera extrapolar como estimación de resultados,
la muestra (las personas encuestadas) tendría que reproducir exactamente el
universo de los votantes potenciales. Algo imposible, ya que al seleccionar la
muestra no se puede saber, a priori, el voto de los encuestados, puesto que es
secreto. Sin embargo, en las encuestas bien realizadas se pregunta igualmente
por el recuerdo de voto de las pasadas elecciones, lo que nos permite detectar
una muestra no representativa (con más o menos votantes de un partido de lo que
debería), o con voto oculto. En ambos casos, los resultados deben ser tratados
y corregidos para que se asemejen lo más posible a la realidad. Aquí entra la
famosa “cocina” de las encuestas que, si es profesional, no solo es adecuada
sino imprescindible. Siempre que una investigación sea metodológicamente
sólida, con una muestra representativa y aplique a los datos los pertinentes
ajustes post-encuesta, es posible aproximarse a un buen pronóstico de los resultados
electorales.
Sin embargo, dado que la mayor
parte de los sondeos cometen sesgos y errores introducidos por la metodología
muestral de cada agencia encuestadora, la mejor forma para reducirlos es utilizar
la técnica de agregación de sondeos, es decir “sumar” alguna manera todas las
encuestas realizadas en un periodo de tiempo relativamente reducido. Esta “suma”
nos permite trabajar con un número mayor de encuestados y reducir la
volatibilidad en las predicciones. Hay un buen número de sitios Web que
presentan los resultados de lo que llaman “encuesta de encuestas”, pero todas
ellas basan sus predicciones en calcular la media aritmética de los resultados
pronosticados por diferentes encuestadoras. Se diferencian unos de otros en el
“peso” que le dan a cada encuesta según la lejanía en el tiempo, el acierto en
el pasado, el número de encuestas realizadas, y otros mecanismos correctores, pero
todas ellas coinciden en calcular la media, ponderándola o no por alguno de los
factores mencionados, para ofrecernos sus resultados. Creo que, mientras que la
técnica de agregación de sondeos per se
es una técnica correcta para reducir los errores muestrales y de cocina de las
distintas encuestadoras, el hecho de utilizar la media como instrumento de
agregación constituye un error.
¿Por qué? La media (aritmética)
consiste simplemente en sumar todos los valores y dividir dicha suma se divide
por el número de valores utilizados en la suma. Es un estimador clásico muy
utilizado, especialmente en economía (renta per cápita, por ejemplo), pero
estadísticamente muy poco robusto, ya que es una medida muy sensible a los
valores extremos. Los valores atípicos muy
elevados la aumentan mientras que los muy pequeños la reducen. En otras
palabras, es muy sensible a los errores. Cuando hay valores atípicos en los
datos, los resultados producidos por los métodos clásicos son a menudo de baja
calidad. Puede funcionar bien para valores homogéneos, pero cuanto menos homogéneos
sean los datos, menos información o información más errónea proporciona. En su
lugar, creo que resultaría más acertado utilizar estimadores más robustos y
menos sensibles a valores atípicos como la mediana y la trimedia.
La mediana representa el valor de
la variable de posición central en un conjunto de datos ordenados. Así, la
mediana del siguiente conjunto de datos ordenados (9, 5, 4, 4, 4, 4, 3, 3, 3)
sería “4” (el valor central, en la 5ª de las nueve posiciones), mientras que la
media sería “4,67” (42/9). Se trata del indicador más resistente a la
contaminación de los datos, ya que a menos que más de la mitad de los datos
sean atípicos, la mediana no dará un resultado arbitrariamente abultado. Suele
obtener óptimos resultados cuando la distribución se distribuye de forma más o
menos simétrica alrededor de la mediana, pero algo menos cuando la distribución
de datos no es simétrica.
Que las estimaciones de
resultados electorales utilizando la mediana como método de agregación de
encuestas son más fiables que si se utiliza la media, ha sido experimentado y publicado
con motivo de las elecciones presidenciales de Estados Unidos en 2004. En ese
caso, utilizando la mediana de las encuestas realizadas durante el último mes,
el experimento acertó el ganador de 46 de los 50 estados de la Unión y la
mediana resultó especialmente acertada en aquellos estados donde la pugna
estaba más ajustada, así como en aquellos donde existían pocas encuestas disponibles.
De hecho, de los 39 sitios Web que realizaban predicciones electorales de voto,
solo uno mejoró los resultados de la utilización de la mediana para agregar las
encuestas del último mes.
En cuanto a la trimedia (TM) es
la media ponderada de la mediana y la media de los cuartiles, es decir, si se
ordenan los datos sería (Q2 + (Q1+Q3)/2)/2; donde la mediana es el segundo cuartil
(Q2, el valor que está en el 50% de la distribución), mientras que los cuartiles
(Q1 y Q3) son los valores que están en el 25% y el 75% de la distribución,
respectivamente. En nuestro ejemplo (9, 5, 4, 4, 4, 4, 3, 3, 3); Q1 = 4 (el
tercer valor), Q2 = 4, Q3 = 3 (el séptimo valor), de donde se obtiene que la
trimedia es (4 + (4+3)/2)/2) = 3,75. Se trata de un estadístico resistente,
pues el menos el 25% de los datos deben ser atípicos para que su resultado se
vea afectado y, aunque menos resistente que la mediana, tiene la ventaja respecto
a ésta que se acerca a una estimación más fidedigna en las distribuciones no
simétricas. Así pues, la trimedia es una medida de tendencia central que
combina el énfasis de la mediana en los valores centrales de una distribución
con la atención a valores más extremos de los intercuartiles. Y a despecho de
su simplicidad, su eficiencia (una medida de su optimalidad) es muy elevada (y
mayor que la de la mediana) conservando una gran robustez ante valores
atípicos.
¿Cómo se aplica todo esta teoría
en la práctica? Veamos un ejemplo con las encuestas realizadas en España
durante el mes de febrero de 2016. En la siguiente tabla se muestran los
resultados de la agregación de encuestas utilizando los tres métodos analizados
(media, mediana y trimedia).
Como se observa, la predicción de
resultados experimenta variaciones sustanciales entre los diferentes partidos
según cada encuesta. Durante el mismo mes de febrero, la estimación de voto del
PP oscila entre el 24,0% de Metroscopia y el 28,9% de NC Report, casi 5 p.p.;
la del PSOE entre el 20,8% de GAD3 y el 23,3% de Metroscopia, 2,5 p.p. de
diferencia entre los extremos; la de Podemos varía entre el 18,8% de Sigma-Dos
y el 22,3% de GIPEyOP, 3,5 p.p. de variación; la estimación de voto de
Ciudadanos oscila entre el 14,2% de NC Report y el 18,9% de Simple Lógica, 4,7
p.p. de oscilación; incluso IU, con un porcentaje absoluto de voto mucho menor
que el resto de partidos, varía entre un mínimo del 3,2% de GIPEyOP y un máximo
del 5,1% de Simple Lógica; por último, el porcentaje de voto atribuido al resto
de partidos oscila entre el 7,1% de Simple Lógica y el 11,7% de GAD3. El
resultado de Simple Lógica para el resto de partidos es claramente atípico, ya
que es el único que no está dentro del rango del 10%-11% del resto de
encuestas, además de que creo que jamás en ninguna elección general en España (y
seguro en las últimas elecciones) los partidos digamos “menores” han obtenido
menos de un 10% de los votos.
Como se observa, algunas
encuestas se mencionan varias veces en lo que respecta a valores extremos:
Simple lógica asigna el mínimo de votos al resto de partidos y el máximo a
Ciudadanos e IU, y muestra valores extremos tres veces, mientras que
Metroscopia, NC Report, GAD3, y GIPEyOP muestran valores extremos para algún
partido dos veces. Celeste-Tel e Invymark no ofrecen nunca valores extermos.
Naturalmente, el cálculo de la
estimación agregada utilizando la media se ve afectada por estos valores
extremos, lo que no ocurre ni con la mediana ni con la trimedia. Dado que
disponemos hasta la fecha de nueve encuestas publicadas durante el mes de
febrero, la mediana de la estimación de voto para cada partido correspondería
con el valor 5º de los 9 existentes una vez ordenados de mayor a menor. La
trimedia utilizaría los valores 3º (correspondiente al Q1), 5º (Q2) y 7º (Q3),
otorgando la mitad de la ponderación a la mediana (Q2) y la mitad a la media de
los otros dos cuartiles (Q1 y Q3).
Como resultado, si comparamos
entre los tres estimadores descritos, la media estima valores máximos para el
PSOE, C’s e IU y mínimos para PP y Podemos, aunque las diferencias con la
mediana y la trimedia son más relevantes en el caso del PP (entre 0,4 y 0,6 p.p)
y C’s (entre 0,6 y 0,8 p.p.). En cuanto a la mediana y la trimedia, o no
existen diferencias entre ellas (PSOE e IU) o son menos relevantes que las que
tienen con la media (una décima en el caso de Podemos, dos en PP y C’s y tres
en otros), tal y como por otra parte sería esperable por la construcción de
ambas. La existencia de diferencias o no entre las estimaciones resultantes de
la agregación de encuestas utilizando la mediana y la trimedia lo que muestra es
que, en el caso de algunos partidos (PP, C’s y otros), la distribución de datos
no es simétrica sino que existe un sesgo a la baja (PP) o al alza (C’s y
otros), mientras que en el caso de PSOE, Podemos e IU las distribuciones de
datos resultan aproximadamente simétricas, esto es, existen tantos datos y en
una cuantía similar tanto por encima como por debajo de la mediana, lo que
permite establecer un mayor margen de confianza en las estimaciones.
En conclusión, en mi opinión la
utilización de la trimedia en lugar de la media como estimador resulta relativamente
sencilla de calcular, y de una gran eficiencia y robustez ante valores atípicos,
lo que la haría aconsejable en la predicción de resultados electorales. Al
menos yo la pienso utilizar en mis predicciones. En el caso que nos ocupa, la
estimación de voto durante el mes de febrero de 2016, nada menos que tres de
las nueve encuestas deberían ofrecer resultados atípicos para que la trimedia
se viera afectada de algún modo, y aun así, su impacto se vería reducido a
apenas un 25% de la estimación, dado el mayor peso que se concede al valor
central en el cálculo de la misma. Creo, pues, que resultaría más acertado
utilizar la trimedia como estimador en lugar de la media, como hacen
prácticamente todos los sitios Web dedicados a la agregación de encuestas en
España.