Reference : Presentación del paquete eph
Scientific congresses, symposiums and conference proceedings : Unpublished conference
Engineering, computing & technology : Computer science
Computational Sciences
http://hdl.handle.net/10993/44536
Presentación del paquete eph
English
[en] Presentation of the eph package
Rosati, German [CONICET]
Kozlowski, Diego mailto [University of Luxembourg > Faculty of Science, Technology and Medicine (FSTM) > Department of Engineering (DoE) >]
Shokida, Natsumi Solange mailto [University of Luxembourg > Faculty of Science, Technology and Communication (FSTC) > >]
Tiscorina, Pablo []
Weksler, Guido [University of Buenos Aires > School of Economics > IIE-CEPED]
9-Oct-2020
Yes
International
LatinR
07-10-2020 to 09-10-2020
[es] datos abiertos ; desarrollo de paquetes ; encuestas y hogares
[en] open data ; package developement ; household surveys
[es] El trabajo con datos producidos por fuentes públicas suele encontrarse con varios problemas: uno de los más comunes es la falta de continuidad en la publicación de bases de datos. En ese sentido, la Encuesta Permanente de Hogares -EPH- del Instituto Nacional de Estadística y Censos (INDEC) en Argentina constituye una excepción. En efecto, se trata de un programa que ha publicado bases de datos usuarias con información desde 1974. No obstante, esto se ha hecho de forma “poco replicable”: desde cambios en los formatos de su publicación (dbase, .txt, .xls, .sav, etc.) hasta renombrado de algunas variables y recodificaciones de sus categorías que los hacen poco prácticos para su uso y procesamiento continuo. La inexistencia de una API para la divulgación de la información producida por INDEC genera un límite a las capacidades de procesamiento de la información, reduciendo el público usuario a i) expertos temáticos con conocimiento respecto a cómo acceder a las fuentes y ii) medios de comunicación que acceden a la información ya procesada bajo la forma de comunicados. Esto limita el potencial valor del enorme trabajo elaborado en el instituto, al desincentivar el uso de usuarios con conocimientos limitados de las fuentes, pero con capacidades de procesamiento de datos, como es la comunidad de usuaries de R. A su vez, ciertos indicadores clave presentados por la EPH cuentan con anexos metodológicos, pero no con implementaciones públicas que le permitan al público hacer uso de la metodología por fuera de los informes elaborados por el instituto.

En este contexto, el paquete eph tiene como objetivo facilitar el trabajo de aquelles usuaries de la Encuesta Permanente de Hogares - INDEC que deseen procesar datos de la misma mediante el lenguaje de programación R. La librería presenta las siguientes funcionalidades:
una sintaxis unificada para la descarga, etiquetado y construcción de datasets con información cross-sectional comparables
Implementación de cálculo de indicadores (pobreza) utilizando la metodología oficial

Algunas de sus funciones son:

get_microdata(): Descarga las bases de microdatos,
organize_panels(): Permite armar un pool de datos en panel de la EPH continua,
organize_cno(): Clasifica las ocupaciones según el CNO 2001
organize_caes(): Clasifica las actividades económicas según CAES Mercosur 1.0 y CAES Mercosur
organize_labels(): Etiqueta las bases siguiendo el último diseño de registro
map_agglomerates(): Mapa de indicadores por aglomerado

El paquete también cuenta con otros sets de datos que pueden ser útiles para el trabajo con la EPH: algunos diccionarios que contienen la codificación de las variables geográficas (como regiones o aglomerados) o la posición geográfica (centroides) de los aglomerados en que se releva la encuesta.
[en] Working with data produced by public sources often encounters several problems: one of the most common is the lack of continuity in the publication of databases. In this regard, the Permanent Household Survey -EPH- of the National Institute of Statistics and Censuses (INDEC) in Argentina is an exception. In fact, this survey has published user databases with information since 1974. However, this has been done in a "non-replicable" way: from changes in the formats of its publication (dbase, .txt, .xls, .sav, etc.) to renaming some variables and recoding their categories, which makes them impractical for continuous use and processing. The lack of an API for the dissemination of information produced by INDEC generates a limit to the information processing capabilities, reducing the users to i) thematic experts with knowledge of how to access sources and ii) media that access information already processed in the form of press releases. This limits the potential value of the enormous work done by the institute, by discouraging its use by users with limited knowledge of the sources, but with data processing capabilities, such as the R community. In turn, certain key indicators presented by the EPH have methodological annexes, but no public implementations that allow the public to make use of the methodology outside the reports prepared by the institute.
In this context, the eph package aims to facilitate the work of those users of the Permanent Household Survey - INDEC who wish to process data from it using the programming language R. The library has the following functionalities:
i) a unified syntax for downloading, tagging and building datasets with comparable cross-sectional information ii) Implementation of indicator calculation (poverty) using the official methodology

Some of its functions are:
get_microdata(): Downloads the microdata bases,
organize_panels(): Allows to build a panel data pool of the continuous EPH surveys,
organize_cno(): Classifies occupations according to the CNO 2001
organize_caes(): Classifies economic activities according to CAES Mercosur 1.0 and CAES Mercosur
organize_labels(): Label the bases following the last design
map_agglomerates(): Indicator map by agglomerate

The package also has other datasets that can be useful for working with the EPH: some dictionaries that contain the coding of geographic variables (such as regions or clusters) or the geographic position (centroids) of the clusters where the survey is conducted.
Fonds National de la Recherche - FnR
DRIVEN
http://hdl.handle.net/10993/44536
https://youtu.be/WxtiAOeGBi8
https://youtu.be/UYvSv8StDa8?t=9792
FnR ; FNR12252781 > Andreas Zilian > DRIVEN > Data-driven Computational Modelling And Applications > 01/09/2018 > 28/02/2025 > 2017

File(s) associated to this reference

Fulltext file(s):

FileCommentaryVersionSizeAccess
Open access
LatinR2020_envio_53.pdfPublisher postprint22.22 kBView/Open

Bookmark and Share SFX Query

All documents in ORBilu are protected by a user license.