Algunos conceptos básicos
Cuando hablamos de orígenes de datos, debemos considerar.
Tipo o frecuencia de actualización
Los orígenes de datos pueden clasificarse de acuerdo a su tipo o frecuencia de actualización.
- Estáticos: son aquellos datos que no serán actualizados. Por ejemplo, datos históricos consolidados del año previo o un listado de valores de regiones e identificadores.
- Incrementales: son aquellos datos que no se actualizan, si no que se agregan nuevos datos, en general con una frecuencia conocida. Por ejemplo, todos los días se genera un nuevo dato que debe disponibilizarse junto a los datos de los días precedentes.
- Dinámicos: son aquellos datos que se modifican frecuentemente y que su valor consiste en mantenerse actualizados. Por ejemplo, el valor de un indicador financiero diario o la posición GPS del transporte público.
Los orígenes de datos pueden clasificarse según su formato y tipo de origen.
- Archivo de texto plano (.txt)
- Archivo separado por comas (.csv)
- Archivo planilla de cálculo (.xlsx)
- Archivos alojados en un endpoint (http(s), ftp)
- Servicio web SOAP/xml
- Servicio web REST/json
- Bases de datos relacionales
- Bases de datos documentales
Tipo de operación
Los orígenes de datos pueden clasificarse según la acción o tipo de operación:
- Escritura (crear, modificar, eliminar)
- Lectura
Tipos de accesos a los orígenes de datos
Dependiendo
del tipo de origen de datos pueden requerirse accesos específicos.
Por
ejemplo, para un servicio web puede requerir diferentes tipos de
autenticación o puede ser necesario agregar reglas en el firewall para permitir las conexiones desde la plataforma.
La
forma de actualización de los datos dependerá de su tipo y origen. Por
ejemplo, si el origen es un archivo de texto plano y son de tipo
estático o incremental, pueden actualizarse de forma manual o mediante
otros procesos automatizados.
Frecuencia de actualización de los datos
La
frecuencia de actualización de los datos es un aspecto central a tener
en cuenta en la Gestión de APIs. La frecuencia debe definirse en
unidades de tiempo (cada un minuto, una hora, un día) o incluso con tareas
de actualización específicas conocidas como cron.
La frecuencia de
actualización es una decisión que impacta sobre la gestión del caché.
Por ello, es fundamental definir una frecuencia acorde a la
actualización de los datos de origen con el fin de optimizar los tiempos
de respuesta y evitar la latencia de redes.
Además, la gestión de
caché mediante la definición de la frecuencia de actualización de un
origen de datos permitirá impactar a ese origen solo cuando fuese
necesario. Por ejemplo, si la plataforma de gestión de APIs debe
consultar un servicio web que actualiza sus datos cada una hora, la
frecuencia definida debe ser de una hora.
De esta manera, se consultará
al servicio web de origen solo una vez por hora y la respuesta
permanecerá en caché durante ese periodo. Todas las consultas que reciba
la plataforma durante ese intervalo serán entregadas de caché. Dicho de
otra manera, la primera consulta recibida impactará sobre el servicio
web de origen, mientras que las subsiguientes serán entregadas de caché.
De esta forma la plataforma absorbe las consultas realizadas evitando
impactar al origen cuando no se considere necesario.
Los siguientes formatos y orígenes le permitirán crear vistas de datos:
Archivos
- Formato abierto: CSV, TSV.
- Formato de texto: TXT
- Formato de Excel: XLSX
- Formato de OpenOffice: ODS
Servicios WEB
- REST/JSON
- SOAP/XML
Bases de datos
- Elastic Search
- Mongo DB
- MySQL
- SQLServer
- PostgreSQL
- Oracle DB
- Keyhole Markup Language (KML, KMZ)