La minería de datos revela la forma en que los humanos se evalúan mutuamente
Las vastas bases de datos de estadísticas de fútbol exponen la limitada forma en que los observadores humanos califican el desempeño y sugieren cómo pueden mejorar significativamente.
Emergent Technologies from arXiv
La forma en que evaluamos el desempeño de otros humanos es uno de los misterios más grandes de la psicología cognitiva. Este proceso ocurre continuamente a medida que juzgamos la capacidad de las personas para realizar ciertas tareas, evaluando a todos, desde electricistas y conductores de autobuses hasta contadores y políticos.
El problema es que solo tenemos acceso a un conjunto limitado de datos sobre el rendimiento de un individuo, algunos de ellos directamente relevantes, como el registro de conducir de un taxista, pero muchos de ellos son irrelevantes, como el sexo del conductor. De hecho, la cantidad de información puede ser tan grande que nos vemos obligados a decidir usar un pequeño subconjunto de la misma. ¿Cómo se hacen esas decisiones?
Hoy recibimos una especie de respuesta gracias al trabajo de Luca Pappalardo en la Universidad de Pisa en Italia y algunos amigos que han estudiado este problema en el campo del deporte, donde las cuestiones de rendimiento se ponen de relieve. Su trabajo proporciona una visión única de la forma en que evaluamos el desempeño humano y cómo esto se relaciona con medidas objetivas.
Los factores que los observadores humanos usan para calificar el desempeño son un pequeño subconjunto de medidas objetivas.
El rendimiento deportivo es un área en la que se han recopilado registros detallados del desempeño individual durante algunos años. Pappalardo y co se centran en el fútbol, el deporte más popular del mundo, y en particular en el rendimiento de los jugadores que compiten en la parte superior del deporte en la liga de fútbol de la Serie A de Italia.
Durante muchos años, los periódicos deportivos italianos han calificado el rendimiento de los jugadores en cada juego en una escala de 0 a 10, donde 0 es inolvidablemente malo y 10 inolvidablemente increíble. Este sistema se basa en el sistema italiano de calificaciones escolares, donde un 6 indica que un alumno se desempeñó adecuadamente. La forma en que los jugadores son calificados no se publica, pero es presumiblemente hecha por un experto periodista deportivo.
En los últimos años, los mismos jugadores también han sido evaluados por un sistema de medición objetivo que cuenta el número de pases, tiros, tacleadas, salvados, etc. que cada jugador realiza. Esta medida técnica tiene en cuenta 150 parámetros diferentes y proporciona una cuenta completa del rendimiento en el terreno de cada jugador.
La pregunta que hacen Pappalardo y sus colegas es cómo las clasificaciones de los periódicos se correlacionan con las calificaciones técnicas, y si es posible utilizar los datos técnicos para comprender los factores que influyen en las calificaciones de los seres humanos.
Los investigadores comienzan con el conjunto de datos técnicos de 760 juegos en la Serie A en las temporadas 2015-16 y 2016-17. Esto consiste en más de un millón de puntos de datos que describen los eventos puntuales con sello de tiempo. Usan la información para extraer un vector de rendimiento técnico para cada jugador en cada juego; esto actúa como una medida objetiva de su desempeño.
Los investigadores también tienen las calificaciones para cada jugador en cada juego de tres periódicos deportivos: Gazzetta dello Sport, Corriere dello Sport y Tuttosport.
Las clasificaciones de los periódicos tienen algunas propiedades estadísticas interesantes. Solo el 3 por ciento de las calificaciones son inferiores a 5 y solo un 2 por ciento más que 7. Cuando las clasificaciones se clasifican de acuerdo con el sistema de calificaciones de la escuela, como malas si son inferiores a 6 y buenas si tienen 7 o más, son malas. las calificaciones resultan ser tres veces más comunes que las buenas.
En general, los periódicos califican una actuación similar, aunque puede haber desacuerdos ocasionales hasta en 6 puntos. "Observamos un buen acuerdo sobre las calificaciones pareadas entre los periódicos, encontrando que las calificaciones (i) tienen distribuciones idénticas; (ii) están fuertemente correlacionados entre sí; y (iii) típicamente difieren en una unidad de calificación (0.5) ", dicen Pappalardo y compañía.
Para analizar la relación entre las clasificaciones de los periódicos y las clasificaciones técnicas, Pappalardo y co utilizan el aprendizaje automático para encontrar correlaciones en los conjuntos de datos. En particular, crean un "juez artificial" que intenta reproducir las calificaciones de los periódicos de un subconjunto de los datos técnicos.
Esto conduce a un resultado curioso. El juez artificial puede igualar las calificaciones de los periódicos con un grado razonable de precisión, pero no tan bien como los periódicos coinciden entre sí. "El desacuerdo indica que las características técnicas por sí solas no pueden explicar completamente el proceso de calificación [del periódico]", dicen Pappalardo y compañía.
En otras palabras, las calificaciones de los periódicos deben depender de factores externos que no son capturados por los datos técnicos, como la expectativa de un determinado resultado, el sesgo personal, y así sucesivamente.
Para poner a prueba esta idea, Pappalardo y co recogieron otro conjunto de datos que captura factores externos. Estos incluyen la edad, nacionalidad y club del jugador, el resultado esperado del juego según lo estimado por los corredores de apuestas, el resultado real del juego y si un juego se juega en casa o fuera de casa.
Cuando se incluyen estos datos, el juez artificial lo hace mucho mejor. "Al agregar información contextual, el acuerdo estadístico entre el juez artificial y el juez humano aumenta significativamente", dice el equipo.
De hecho, pueden ver claramente ejemplos de la forma en que los factores externos influyen en las calificaciones de los periódicos. En todo el conjunto de datos, solo dos jugadores han recibido un premio perfecto. Uno de ellos fue el delantero argentino Gonzalo Higuaín, que jugó para Napoli. En esta ocasión, marcó tres goles en un juego, y al hacerlo se convirtió en el máximo anotador de la historia en una temporada en la Serie A. Ese hito fue sin duda la razón para la calificación perfecta, pero no hay forma de derivar esto. puntuación del conjunto de datos técnicos.
Una pregunta importante es qué factores utiliza el juez artificial para que coincida con las calificaciones de los periódicos. "Observamos que la mayor parte de la atención de un juez humano está dedicada a un pequeño número de características, y la gran mayoría de las características técnicas son poco consideradas o descartadas durante el proceso de evaluación", dicen Pappalardo y compañía.
Entonces, para atacar a los jugadores avanzados, los periódicos tienden a clasificarlos usando factores fácilmente observables, como el número de goles marcados; ellos califican a los porteros sobre el número de goles encajados. Los jugadores de medio campo tienden a ser calificados por parámetros más generales, como la diferencia de goles.
Eso tiene sentido: los observadores humanos tienen un ancho de banda limitado y probablemente solo puedan observar una pequeña fracción de los indicadores de rendimiento. De hecho, el equipo dice que el juez artificial puede igualar clasificaciones humanas usando menos de 20 de los factores técnicos y externos.
Es un resultado fascinante que tiene implicaciones importantes para la forma en que pensamos sobre las calificaciones de desempeño. El objetivo, por supuesto, es encontrar formas más efectivas de evaluar el rendimiento en todo tipo de situaciones. Pappalardo y su equipo piensan que su trabajo tiene una influencia significativa en esto. "Este documento se puede utilizar para capacitar a los evaluadores humanos para obtener una comprensión sobre la lógica subyacente de sus decisiones", concluyen.
Ref:
arxiv.org/abs/1712.02224 : Human Perception of Performance