limpieza de la preparación de datos

¿Qué sucede cuando los investigadores ‘limpian’ los datos?

Aunque los investigadores a menudo pasan poco tiempo discutiendo la preparación de datos, tiene el potencial de alterar masivamente los resultados de un estudio determinado. Para garantizar que la investigación siga siendo útil, necesitamos estándares universales y una mejor documentación.

Es probable que la mayoría de los economistas hayan escuchado muchas veces un viejo chiste de investigadores ajenos al campo. Dice: “Hay tres científicos varados en una isla desierta :  un físico, un químico y un economista. Encuentran una lata de comida pero no tienen forma de abrirla. El físico sugiere que deberían usar palanca para abrir la tapa de la lata. El químico sugiere que enciendan un fuego y calienten la lata, y así volarán la tapa. Ambos miran al economista, quien dice: ‘Supongamos que hay un abrelatas’”.

Cuando se trabaja con información recopilada de forma no experimental, los investigadores deben hacer con frecuencia suposiciones sobre la mejor manera de procesar, limpiar y modelar sus datos. El estadístico Andrew Gelman se refiere a estos puntos de decisión, que pueden ocurrir en cualquier momento durante el proceso de investigación, como un “jardín de caminos que se bifurcan”. 

Grados de libertad del investigador

Cuando se trabaja con información recopilada de forma no experimental, los investigadores deben hacer con frecuencia suposiciones sobre la mejor manera de procesar, limpiar y modelar sus datos. Un término común para estas decisiones, ya sean explícitas o implícitas, es «grados de libertad del investigador». Estas decisiones ocurren en muchos puntos durante el proceso de investigación y en su mayoría no se expresan. Diferentes investigadores podrían elegir razonablemente diferentes caminos de decisión cuando se enfrentan a los mismos datos. Este nivel de flexibilidad, sin embargo, puede llevar a múltiples investigadores a producir resultados que son radicalmente diferentes entre sí utilizando datos idénticos.

Grados de discrepancia

Un término más común para las decisiones tomadas, ya sean explícitas o implícitas, al destilar información en un formato utilizable es «grados de libertad del investigador». Estas decisiones ocurren en muchos puntos durante el proceso de investigación y en su mayoría no se expresan. Además, diferentes investigadores podrían elegir razonablemente diferentes caminos de decisión cuando se enfrentan a los mismos datos. Este nivel de flexibilidad, sin embargo, puede llevar a múltiples investigadores a producir resultados que son radicalmente diferentes entre sí utilizando datos idénticos.

El problema es que la mayoría de los datos de observación presentan demasiadas horquillas de decisión diferentes. Como resultado, los investigadores tienen que tomar demasiadas decisiones propias, que a menudo están aisladas unas de otras. Las diferencias en uno o dos supuestos durante las fases de procesamiento o análisis de datos de la investigación generalmente no darán lugar a grandes discrepancias en los resultados. Sin embargo, a escala, la gran cantidad de decisiones que los investigadores no suelen tomar en cuenta y que casi nunca documentan ha precipitado la actual crisis de replicación en las ciencias sociales.

La rápida expansión del acceso a fuentes de datos comunes (es decir, el Censo, la Oficina de Estadísticas Laborales, la Reserva Federal y otras) durante los últimos 15 años ha exacerbado este problema. La falta de mejores prácticas universales para el reporte, estandarización y agregación de datos ha llevado a la investigación empírica a perder credibilidad. Sin una guía sólida, los investigadores deben hacer tantas suposiciones independientes en todos los niveles del proceso de investigación que la cantidad de resultados diferentes rápidamente supera los conocimientos empíricos generalizables. 

Relacionado: La correlación no es causalidad. Excepto cuando es.

Enmarcando el problema

Nick Huntington-Klein y otros investigadores descubrieron recientemente que los grados de libertad de los investigadores conducen a conclusiones radicalmente diferentes en los análisis económicos empíricos. Además, determinaron que la mayoría de las decisiones de preparación y análisis de datos tomadas por equipos independientes de investigadores que impulsaron estos diferentes resultados nunca se habrían informado en los resultados finales. 

Huntington-Klein y su equipo proporcionaron datos de dos estudios económicos publicados previamente a siete replicadores diferentes. El equipo también enmarcó las preguntas de investigación para garantizar que los replicadores pudieran responder las mismas preguntas que abordaron los trabajos publicados, pero de tal manera que no reconocieran los estudios publicados a partir de los datos. 

El estudio encontró que las diferencias en el procesamiento y la limpieza de los datos generados externamente por parte de los replicadores dieron lugar a enormes discrepancias en los resultados. No hubo dos replicadores que informaron el mismo tamaño de muestra, los tamaños estimados y los signos diferían entre los replicadores y la desviación estándar de las estimaciones entre los siete replicadores fue de tres a cuatro veces mayor que el error estándar que cada replicador debería haber informado individualmente. El último resultado indicó que la variación entre las decisiones de los investigadores, que probablemente habrían escapado a la documentación y, por lo tanto, no habrían aparecido ante los revisores pares, era la culpable de una variación tan grande en los resultados.

Otro equipo, dirigido por Uri Simonsohn, sugirió que los grados de libertad de los investigadores surgen de dos fuentes principales: la ambigüedad en las mejores prácticas de decisión de datos y el impulso de los investigadores para publicar resultados «estadísticamente significativos». Como ejemplo, Simonsohn y sus coautores señalan 30 trabajos en la misma revista de psicología que trataban decisiones idénticas y aparentemente simples sobre qué datos constituyen valores atípicos en los tiempos de reacción y cómo los investigadores deberían tratarlos. A pesar de sus parámetros similares, los artículos exhibieron una gran cantidad de variación entre los estudios. 

Las decisiones del investigador individual no fueron incorrectas, pero la ambigüedad del tratamiento atípico condujo a resultados radicalmente divergentes. Es más, dado que cualquier decisión parecía justificable, los investigadores tenían incentivos directos para tomar decisiones que produjeran los resultados más llamativos.

Varianza teórica

El impacto de los grados de libertad del investigador ni siquiera se limita al ámbito empírico. Hace algunos años, dos investigadores publicaron un artículo que supuestamente demostraba cómo los economistas no comprendían completamente el concepto de costo de oportunidad (el principio de que el costo de una actividad determinada es el beneficio perdido de la siguiente mejor alternativa), un concepto fundamental y supuestamente sencillo. en la toma de decisiones económicas. La pregunta de libro de texto que los investigadores hicieron a 199 economistas fue la siguiente: 

Encierre en un círculo la mejor respuesta a la siguiente pregunta:

Ganaste un boleto gratis para ver un concierto de Eric Clapton (que no tiene valor de reventa). Bob Dylan actuará esa misma noche y es tu siguiente mejor actividad alternativa. Las entradas para ver a Dylan cuestan $40. En un día cualquiera, estarías dispuesto a pagar hasta $50 para ver a Dylan. Suponga que no hay otros costos por ver a cualquiera de los artistas. Con base en esta información, ¿cuál es el costo de oportunidad de ver a Eric Clapton?

$0 B. $10 C. $40 D. $50

La respuesta, según la definición del libro de texto, es $10. El beneficio de $50 de Dylan menos el costo de $40 de Dylan fue el costo de oportunidad de ir a Clapton gratis.

Sin embargo, como mostró un artículo de refutación , debido a que no existe un estándar operativo para lo que constituye un “costo de oportunidad”, las diferencias de definición en torno a lo que es un costo y un beneficio en la pregunta anterior pueden hacer que cualquiera de las cuatro opciones de respuesta sea plausible.

¿El precio del boleto de Dylan constituye un beneficio porque no se renuncia a $40? ¿Cuál es el valor monetario del show de Clapton? La ambigüedad en la contabilidad del costo de oportunidad produjo grados de libertad para que un encuestado hiciera suposiciones diferentes y defendibles sobre el asistente al concierto, lo que resultó en respuestas divergentes. 

Desequilibrar los resultados

Dado que la mayoría de las divergencias en los grados de libertad de los investigadores resultan de las ambigüedades que surgen en los datos, las posibles soluciones se centran tanto en evitar que los investigadores tengan que tomar estas decisiones como en exigirles que sean específicos sobre las decisiones que deben tomar. Tanto Huntington-Klein como Simonsohn proponen que los investigadores incluyan apéndices de datos que documenten todas las variables construidas, ya sea que los investigadores las hayan utilizado o no. 

Los investigadores también deben documentar todas las decisiones que toman sobre qué datos excluir, las decisiones de modelado que no dan resultados y cualquier manipulación fallida de los datos en el procesamiento en estos apéndices. Es absolutamente necesaria una mayor transparencia en torno al desorden del procesamiento y la estimación de datos, incluso si desdibuja los resultados que de otro modo serían nítidos, para garantizar que los investigadores sean conscientes de las decisiones que toman durante el proceso de investigación. 

Otra solución es la estandarización de los procedimientos de procesamiento de datos y las pautas de mejores prácticas. Si muchos investigadores utilizan las mismas fuentes de datos, lo que ocurre con frecuencia en la investigación no experimental, el preprocesamiento de los datos de uso común o una guía de mejores prácticas para el uso de datos comunes minimizan las fuentes potenciales para la toma de decisiones del investigador. 

El proceso de fusión estandarizado de la Oficina Nacional de Investigación Económica para los Archivos de Grupos de Rotación Salientes Fusionados de la Encuesta de Población Actual de la Oficina del Censo es un buen ejemplo de este tipo de medida. Al hacer que el proceso de coincidencia de archivos y todas las suposiciones sean uniformes, el NBER ha mitigado de manera efectiva la variación de los investigadores en la forma en que se combinan los datos de CPS. Esto ha llevado a resultados más uniformes al eliminar la necesidad de que los investigadores utilicen datos de CPS para decidir de forma independiente cuál es la mejor manera de combinar archivos de datos dispares. El preprocesamiento de fuentes de datos comunes a través de código estándar, guías o ambos proporciona métodos excelentes mediante los cuales las organizaciones pueden evitar la ambigüedad en el procesamiento de datos. 

Otra solución que podría ayudar a mitigar el ruido en la estimación que surge del jardín de caminos que se bifurcan es agregar estimaciones dispares que aborden la misma pregunta utilizando datos idénticos. Los métodos de promediación de conjuntos o modelos pueden ser útiles para garantizar que una estimación que surja de múltiples líneas de investigación independiente sea más precisa que cualquier línea individual. Más importante aún, múltiples fuentes de estimaciones pueden revelar cuánto ruido surge de la flexibilidad del investigador en la toma de decisiones de datos. 

El libro Noise de Daniel Kahneman, Oliver Sibony y Cass Sunstein sugiere que las organizaciones preocupadas por la consistencia en el juicio y la toma de decisiones lleven a cabo una «auditoría de ruido». Este proceso, al igual que el trabajo del equipo de Huntington-Klein, implica solicitar decisiones a un escenario preseleccionado de expertos en la toma de decisiones varias veces. La auditoría evalúa qué tan cerca se parece la decisión promedio de cada individuo al promedio general de todos los que toman las decisiones. También establece qué tan cerca están las decisiones individuales de cada tomador de decisiones de su propio promedio general. En otras palabras, ¿el tomador de decisiones toma las mismas o similares elecciones de grados de libertad en circunstancias casi idénticas? 

Como afirman Kahneman, Sibony y Sunstein, “el juicio es difícil porque el mundo es muy complejo e incierto”. Esto es doblemente cierto en el caso de los datos recopilados de procesos no controlados del mundo real. Afortunadamente, los autores también concluyen que el ruido es detectable y reducible utilizando reglas y pautas establecidas. 

Esta máxima ciertamente es cierta cuando se trata de investigación empírica. El ruido que surge de las diferentes suposiciones que los investigadores deben hacer durante el proceso de investigación puede compensarse con transparencia, estandarización y, en menor medida, agregación. Los investigadores deben darse cuenta de cuál puede ser la cantidad y el impacto de las suposiciones que hacen en sus resultados finales. De lo contrario, como advierten Kahneman, Sidley y Sunstein, “el ruido es inconsistencia, y la inconsistencia daña la credibilidad del sistema”.