Unpublished conference/Abstract (Scientific congresses, symposiums and conference proceedings)
Presentación del paquete eph
Rosati, German; Kozlowski, Diego; Shokida, Natsumi Solange et al.
2020LatinR
 

Files


Full Text
LatinR2020_envio_53.pdf
Publisher postprint (22.75 kB)
Download

All documents in ORBilu are protected by a user license.

Send to



Details



Keywords :
datos abiertos; desarrollo de paquetes; encuestas y hogares; open data; package developement; household surveys
Abstract :
[es] El trabajo con datos producidos por fuentes públicas suele encontrarse con varios problemas: uno de los más comunes es la falta de continuidad en la publicación de bases de datos. En ese sentido, la Encuesta Permanente de Hogares -EPH- del Instituto Nacional de Estadística y Censos (INDEC) en Argentina constituye una excepción. En efecto, se trata de un programa que ha publicado bases de datos usuarias con información desde 1974. No obstante, esto se ha hecho de forma “poco replicable”: desde cambios en los formatos de su publicación (dbase, .txt, .xls, .sav, etc.) hasta renombrado de algunas variables y recodificaciones de sus categorías que los hacen poco prácticos para su uso y procesamiento continuo. La inexistencia de una API para la divulgación de la información producida por INDEC genera un límite a las capacidades de procesamiento de la información, reduciendo el público usuario a i) expertos temáticos con conocimiento respecto a cómo acceder a las fuentes y ii) medios de comunicación que acceden a la información ya procesada bajo la forma de comunicados. Esto limita el potencial valor del enorme trabajo elaborado en el instituto, al desincentivar el uso de usuarios con conocimientos limitados de las fuentes, pero con capacidades de procesamiento de datos, como es la comunidad de usuaries de R. A su vez, ciertos indicadores clave presentados por la EPH cuentan con anexos metodológicos, pero no con implementaciones públicas que le permitan al público hacer uso de la metodología por fuera de los informes elaborados por el instituto. En este contexto, el paquete eph tiene como objetivo facilitar el trabajo de aquelles usuaries de la Encuesta Permanente de Hogares - INDEC que deseen procesar datos de la misma mediante el lenguaje de programación R. La librería presenta las siguientes funcionalidades: una sintaxis unificada para la descarga, etiquetado y construcción de datasets con información cross-sectional comparables Implementación de cálculo de indicadores (pobreza) utilizando la metodología oficial Algunas de sus funciones son: get_microdata(): Descarga las bases de microdatos, organize_panels(): Permite armar un pool de datos en panel de la EPH continua, organize_cno(): Clasifica las ocupaciones según el CNO 2001 organize_caes(): Clasifica las actividades económicas según CAES Mercosur 1.0 y CAES Mercosur organize_labels(): Etiqueta las bases siguiendo el último diseño de registro map_agglomerates(): Mapa de indicadores por aglomerado El paquete también cuenta con otros sets de datos que pueden ser útiles para el trabajo con la EPH: algunos diccionarios que contienen la codificación de las variables geográficas (como regiones o aglomerados) o la posición geográfica (centroides) de los aglomerados en que se releva la encuesta.
[en] Working with data produced by public sources often encounters several problems: one of the most common is the lack of continuity in the publication of databases. In this regard, the Permanent Household Survey -EPH- of the National Institute of Statistics and Censuses (INDEC) in Argentina is an exception. In fact, this survey has published user databases with information since 1974. However, this has been done in a "non-replicable" way: from changes in the formats of its publication (dbase, .txt, .xls, .sav, etc.) to renaming some variables and recoding their categories, which makes them impractical for continuous use and processing. The lack of an API for the dissemination of information produced by INDEC generates a limit to the information processing capabilities, reducing the users to i) thematic experts with knowledge of how to access sources and ii) media that access information already processed in the form of press releases. This limits the potential value of the enormous work done by the institute, by discouraging its use by users with limited knowledge of the sources, but with data processing capabilities, such as the R community. In turn, certain key indicators presented by the EPH have methodological annexes, but no public implementations that allow the public to make use of the methodology outside the reports prepared by the institute. In this context, the eph package aims to facilitate the work of those users of the Permanent Household Survey - INDEC who wish to process data from it using the programming language R. The library has the following functionalities: i) a unified syntax for downloading, tagging and building datasets with comparable cross-sectional information ii) Implementation of indicator calculation (poverty) using the official methodology Some of its functions are: get_microdata(): Downloads the microdata bases, organize_panels(): Allows to build a panel data pool of the continuous EPH surveys, organize_cno(): Classifies occupations according to the CNO 2001 organize_caes(): Classifies economic activities according to CAES Mercosur 1.0 and CAES Mercosur organize_labels(): Label the bases following the last design map_agglomerates(): Indicator map by agglomerate The package also has other datasets that can be useful for working with the EPH: some dictionaries that contain the coding of geographic variables (such as regions or clusters) or the geographic position (centroids) of the clusters where the survey is conducted.
Disciplines :
Computer science
Author, co-author :
Rosati, German;  CONICET
Kozlowski, Diego ;  University of Luxembourg > Faculty of Science, Technology and Medicine (FSTM) > Department of Engineering (DoE)
Shokida, Natsumi Solange ;  University of Luxembourg > Faculty of Science, Technology and Communication (FSTC)
Tiscorina, Pablo
Weksler, Guido;  University of Buenos Aires > School of Economics > IIE-CEPED
External co-authors :
yes
Language :
English
Title :
Presentación del paquete eph
Alternative titles :
[en] Presentation of the eph package
Publication date :
09 October 2020
Event name :
LatinR
Event date :
07-10-2020 to 09-10-2020
Audience :
International
Focus Area :
Computational Sciences
FnR Project :
FNR12252781 - Data-driven Computational Modelling And Applications, 2017 (01/09/2018-28/02/2025) - Andreas Zilian
Name of the research project :
DRIVEN
Funders :
FNR - Fonds National de la Recherche [LU]
Available on ORBilu :
since 23 October 2020

Statistics


Number of views
172 (20 by Unilu)
Number of downloads
40 (1 by Unilu)

Bibliography


Similar publications



Contact ORBilu