Emparejamiento de registros e historia económica: una revolución en curso.

Matías Brum (Universidad de la República, Uruguay)

Matias Brum es Profesor Adjunto del Instituto de Economía de la Facultad de Ciencias Economicas de Administración, Universidad de la Republica (Uruguay). Es Doctor en Economía por la Queen Mary, University of London (Reino Unido), su investigación se centra en la intersección entre microeconomía aplicada e historia económica, con foco en la migración internacional durante la primera globalización.

 

RESUMEN: El emparejamiento de registros (record linking) es una innovación metodológica reciente y disruptiva para la investigación en historia económica y otras literaturas. En esta nota repaso, muy brevemente, las distintas formas de identificar a la misma persona en dos registros y algunos trabajos de interés centrados en migración y movilidad intergeneracional.

 

Una literatura pequeña pero creciente viene revolucionando el campo de la historia económica y la microeconomía aplicada de la mano de un avance metodológico importante: el emparejamiento de registros (record linking). Mi encuentro con esta literatura surge del deseo de conectar dos bases de datos con información de migrantes italianos a los Estados Unidos a fines del siglo XIX: una, con datos sobre el condado de residencia dentro de los Estados Unidos y, otra, con datos sobre la municipalidad de origen dentro de Italia. Si bien las familias Acquistapace (en una base) y Acqiustapace (en la otra) “evidentemente” compartirían apellido de no ser por un desafortunado error de tipeo o transcripción, las dudas son mayores respecto a los Onetto (¿serán Onetti? ¿serán Oneto?), Benedetto (¿Benedetti? ¿Di Benedetto?) y otros. Los casos de Vicenzo Bevilacqua (en una base) y Vincent Drinkwater (en la otra) me llevaron a una búsqueda seria de formas sistemáticas de vincular individuos entre bases que desembocó en la literatura sobre record linking.

La idea del método es sencilla: dados dos registros administrativos de cobertura amplia y precisa a nivel individual, no muy espaciados en el tiempo, debiera ser posible identificar a la misma persona en dos oportunidades. Documentos de identidad como Cedulas, DNI o Social Security Number permiten una identificación exacta de individuos en dos registros, pero su introducción a gran escala a nivel nacional es relativamente reciente y dicha información no es compartible dado que, precisamente, permiten la identificación individual de las personas. Los Censos antiguos carecen de identificadores precisos, pero incluyen nombre, apellido y otras características demográficas básicas, y su digitalización a cargo de consorcios de investigadores y otros actores institucionales ha generado la materia prima necesaria para el emparejamiento de registros. Claro está, la falta de un número identificador complica el emparejamiento, el cual es afectado por otros factores: mortalidad, migración, cambios de identidad (piénsese en mujeres que se casan y adoptan el apellido del marido) y, especialmente, errores de registro. Todo esto da pie a la pregunta central inicial: ¿cómo hacemos para identificar a la misma persona en dos registros?

La respuesta ha tomado distintos caminos y es, aun, trabajo en curso. Una primera aproximación sugiere emparejar en base a nombre, apellido, sexo y edad, en principio en base a emparejamientos exactos. Para el caso de Ernesto Berinduague de 40 años observado en el censo de 1880, se trata de encontrar un individuo con el mismo nombre, pero de 50 años, en el censo de 1890. Esta aproximación se complementa o flexibiliza admitiendo ventanas en las edades (ej: entre 48 y 52 años en 1890), estandarización de nombres y apellidos, y/o aceptando el emparejamiento de nombres y apellidos muy similares. La similitud de nombres y apellidos es usualmente medida a través de dos algoritmos de comparación de textos: la distancia bi-gram y la distancia Jaro-Winkler. La primera compara dos cadenas de texto y computa su similitud en base a tramos de a dos letras (por ejemplo, “Pablo” se descompone en “Pa” “ab” “bl” y “lo”); la segunda se basa en computar la cantidad (y radicalidad) de cambios necesarios en una cadena de texto para llegar a otra. Ambas arrojan una medida de similitud en una escala 0 a 1 (donde 0 indica que dos cadenas de texto son idénticas).

Estas técnicas de emparejamiento en ocasiones dan lugar a más de un match entre personas, lo que se torna problemático cuando el match es aproximado: ¿Qué sucede cuando en 1890 encontramos a un Ernest Berinduage de 50 años, y también a un Ernesto Berinduage de 49? ¿Cuál es el que “verdaderamente” se corresponde con el Ernesto Berinduage de 40 años observado en 1880? Si bien inicialmente la respuesta consiste en eliminar los emparejamientos múltiples o repetidos, una respuesta más sofisticada consiste en, directamente, emparejar probabilísticamente. En concreto, la idea consiste en medir las distancias entre nombres, apellidos y edad y combinarlas en un indicador de similitud que incorpore los trade-offs. Esto se logra mediante algoritmos que explícitamente buscan maximizar una probabilidad de emparejamiento correcto. Para cada individuo en un registro, se generan probabilidades de emparejamiento con un conjunto de individuos del registro posterior; el investigador puede luego adoptar distintas reglas de aceptación o rechazo.

Estas técnicas de emparejamiento tienen origen en el trabajo pionero de Ferrie (1996) y posteriores avances e innovaciones en los trabajos de Abramitzky, Boustan y Eriksson (2012, 2014, 2017). De hecho, en Abramitzky, Mill y Perez (2018) se incluyen los códigos de STATA con la metodología de emparejamiento probabilístico en su última versión utilizada por los autores. Esto permite y habilita a cualquier investigador interesado en el tema a meterse de lleno en el mundo del emparejamiento de registros.

Un camino algo alternativo consiste en combinar algoritmos y procedimientos mecánicos/automáticos de emparejamiento, con el realizado por seres humanos: esta es la ruta del machine learning. Esta metodología requiere un set de datos de entrenamiento: el investigador debe, primero, proporcionar una base con pares de individuos ya emparejados (en base a opinión experta y/o distancias y algoritmos), que se toman como correctos o verdaderos. Estos datos de entrenamiento son un subconjunto acotado y reducido de los registros históricos a emparejar. Luego, un algoritmo utiliza estos datos como ejemplo y busca replicar los criterios utilizados por el investigador para emparejar el resto de los registros históricos a estudio, buscando minimizar los falsos positivos y los falsos negativos. Este es el acercamiento propuesto por Feigenbaum (2016), un tanto más complejo.

En términos de disponibilidad de datos, un primer (y descomunal) esfuerzo ha sido llevado a cabo por el North Atlantic Population Project, que ha reunido investigadores de varios países del norte y ha generado versiones digitalizadas y de libre acceso de microdatos censales para Canadá, Dinamarca, Gran Bretaña, Islandia, Noruega, Suecia y los Estados Unidos, entre 1703 y 1911. La web del NAPP permite acceder a los datos y en ocasiones a muestras ya emparejadas. Adicionalmente, la Iglesia de los Santos de Jesucristo de los Últimos Días (institución detrás de Ancestry.com) ha llevado a cabo, paralelamente, un gran esfuerzo digitalizador mediante voluntarios, cubriendo buena parte de los Censos de Estados Unidos del siglo XIX e inicios del XX. La disponibilidad es más bien acotada, pero algunos de estos microdatos son descargables a través de la web del IPUMS y de convenios con el NBER.

El emparejamiento de registros permite reconstruir datos de panel para períodos importantes para, por ejemplo, la literatura sobre migración. Así, en Abramitzky, Boustan y Eriksson (2017), los autores buscan hombres noruegos presentes en el censo noruego de 1900 en los censos de noruega y Estados Unidos de 1910, en un estudio sobre retornantes (return migration). Encuentran que los retornantes son negativamente (auto)seleccionados del conjunto de noruegos emigrados a los

Estados Unidos, aunque su pasaje por el nuevo mundo fue lo suficientemente exitoso como para mejorar sus outcomes en Noruega al volver.

Siguiendo con Noruega, en un trabajo anterior, Abramitzky, Boustan y Eriksson (2012) buscan a noruegos encontrados en los censos de Estados Unidos y Noruega de 1900 en el censo noruego de 1865, y encuentran que los emigrantes noruegos a los Estados Unidos fueron, a su vez, seleccionados negativamente. Con datos similares para el mismo caso, Abramitzky, Boustan y Eriksson (2013) encuentran que los niveles de riqueza de las familias noruegas reducen la emigración a los Estados Unidos (a partir de cierto nivel).

En Abramitzky, Boustan y Erkisson (2014), los autores emparejan nativos e inmigrantes en los censos estadounidenses de 1900, 1910 y 1920. En contraste con la literatura anterior, los autores encuentran que los inmigrantes no enfrentan una penalización muy severa al llegar a los Estados Unidos en términos de ocupaciones en las que se insertan, encontrando también mejoras en el tiempo (en términos de categoría de ocupación) comparables a las de los nativos (aunque con diferencias importantes según el país de origen de los inmigrantes).

En mi tesis doctoral, emparejo inmigrantes italianos encontrados en el censo de Estados Unidos de 1900 con datos administrativos sobre pasajeros en embarcaciones haciendo la ruta Italia-Estados Unidos, por apellidos. Encuentro que las condiciones económicas en los condados de destino de la primera oleada (pioneros) de italianos que arriba a los Estados Unidos incrementa la proporción de italianos provenientes de las mismas municipalidades de origen, y que dicho efecto es aún mayor cuanto mayor la proporción de pioneros de cada municipalidad que se hubiese asentado en dichos condados. Sin embargo, la tasa de emigración de cada municipalidad a los Estados Unidos en su conjunto no parece depender de las distintas decisiones de los pioneros en cuanto a su ubicación a nivel de condados al interior de los Estados Unidos.

El emparejamiento de registros y la reconstrucción de datos de panel es también clave para la literatura sobre movilidad intergeneracional. En esta línea, Feigenbaum (2018) empareja registros administrativos de padres observados en 1915 con sus hijos observados en el censo de 1940 de los Estados Unidos, y encuentra bajos niveles de persistencia en la movilidad intergeneracional en términos de ingresos, educación y ocupación. En otro trabajo, Feigenbaum (2015) empareja censos estadounidenses de 1900 y 1920 y estudia la movilidad intergeneracional durante la gran depresión, y encuentra que esta crisis redujo la movilidad intergeneracional.

Las técnicas de emparejamiento han avanzado mucho desde el trabajo de Ferrie (1996). De hecho,  en la última edición del World Economic History Conference, Abramitzky, Boustan, Eriksson, Feigenbaum y Perez presentaron un resumen más detallado del estado del arte en técnicas de emparejamiento (disponible aquí), realizando un análisis comparado de la efectividad y problemas comunes asociados a cada mecanismo de emparejamiento. Además, el propio Abramitzky ha publicado en su web códigos e información necesaria para replicar varios de sus trabajos co-autorados. Este contexto de gran disponibilidad de datos en conjunto con la difusión pública de los códigos y algoritmos usados por distintos autores, claramente posibilita a otros investigadores a subirse al carro o a adaptar estos desarrollos para otras agendas de investigación. ¡Manos a la obra!

 

Referencias:

Abramitzky, R., Boustan, L., & Eriksson, K. (2016). To the New World and Back Again: Return Migrants in the Age of Mass Migration. ILR Review, 0019793917726981.

Abramitzky, R., Boustan, L. P., & Eriksson, K. (2014). A nation of immigrants: Assimilation and economic outcomes in the age of mass migration. Journal of Political Economy, 122(3), 467-506.

Abramitzky, R., Boustan, L. P., & Eriksson, K. (2012). Europe’s tired, poor, huddled masses: Self-selection and economic outcomes in the age of mass migration. American Economic Review, 102(5), 1832-56.

Abramitzky, R., Mill, R., & Pérez, S. (2018). Linking Individuals Across Historical Sources: a Fully Automated Approach (No. w24324). National Bureau of Economic Research.

Abramitzky, R., Boustan, L. P., & Eriksson, K. (2013). Have the poor always been less likely to migrate? Evidence from inheritance practices during the Age of Mass Migration. Journal of Development Economics, 102, 2-14.

Brum, M. (2018). Italian Migration to the United States: The Role of Pioneers’ Locations.

 Feigenbaum, J. J. (2018). Multiple measures of historical intergenerational mobility: Iowa 1915 to 1940. The Economic Journal, 128(612), F446-F481.

Feigenbaum, J. J. (2015). Intergenerational mobility during the great depression.

Feigenbaum, J. (2015). Automated Census Record Linking. unpub. paper (Harvard University, 2015), available at: http://scholar. harvard. edu/files/jfeigenbaum/files/feigenbaum-censuslink. pdf.

Ferrie, J. P. (1996). A new sample of males linked from the public use microdata sample of the 1850 US federal census of population to the 1860 US federal census manuscript schedules. Historical Methods: A Journal of Quantitative and Interdisciplinary History, 29(4), 141-156.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s