Elegir el formato adecuado
A medida que la tecnología cambia, los investigadores deben planificar tanto la obsolescencia de hardware como de software y considerar la longevidad de sus opciones de formato de archivo para asegurar la legibilidad y el acceso a largo plazo.
Los formatos de archivo más propensos a ser accesibles en el futuro tienen las siguientes características:
- No propietario
- Abiertos y documentados
- Uso común por parte de la comunidad investigadora
- Representación estándar (ASCII, Unicode)
- Sin cifrado
- Sin comprimir
Estos son algunos ejemplos de formatos de archivo FAIR preferidos para la preservación:
- Contenedores: TAR, GZIP, ZIP
- Bases de datos: XML, CSV, JSON
- Geoespacial: SHP, DBF, GeoTIFF, NetCDF
- Vídeo: MPEG, AVI, MXF, MKV
- Sonidos: WAVE, AIFF, MP3, MXF, FLAC
- Estadísticas: DTA, POR, SAS, SAV
- Imágenes: TIFF, JPEG 2000, PDF, PNG, GIF, BMP, SVG
- Datos tabulares: CSV, TXT
- Texto: XML, PDF/A, HTML, JSON, TXT, RTF
- Archivo web: WARC
Considere migrar sus datos en un formato con las características anteriores, además de mantener una copia en el formato de software original. Tenga en cuenta que, en algunos casos, la migración de datos a un formato abierto puede causar pérdida de datos/metadatos.
Si deposita sus datos en un repositorio, sus archivos pueden ser migrados a formatos más nuevos, para que sean utilizables por futuros investigadores.
Más información:
Algunas herramientas para la conversión de formatos:
Estructura de los ficheros
El nombre, la estructura de las carpetas y el control de versiones de los ficheros deben facilitar la búsqueda, localización y comprensión de los datos. Por eso, es muy importante planificar bien esta cuestión.
Recomendaciones para nombrar los archivos:
- Nombrar los archivos con nombres cortos y relevantes
- No utilizar caracteres especiales: ! @ # $ % ^ & * ( ) ` ; < > ? , [ ] { } ' " |
- Usar el guión bajo, mejor que el espacio en blanco
- Ser consistente con la nomenclatura que se elige, mayúsculas, minúsculas, forma de las fechas, AAAA‐MM‐DD ou AAAA‐MM.
Más recomendaciones, en este documento elaborado por el Servicio de Biblioteca de la Universidad de A Coruña.
Herramientas para renombrar carpetas:
Recomendaciones para la organización de carpetas:
- Pensar la mejor jerarquía para los archivos: profunda o superficial;
- Organización sistemática de las carpetas y ficheros;
- Restringir el nivel de carpetas a tres o cuatro;
- Separar los trabajos finalizados de los que están en curso.
Más información:
UK Data Service
Recomendaciones para el control de versiones:
- Si hay varias versiones, nombrar por número (por ejemplo v01, v02 etc.);
- La versión final se puede nombrar como FINAL;
- Decidir cuantas versiones de un archivo y que versiones se conservarán y durante cuanto tiempo;
- Registrar los cambios realizados en un archivo cuando se crea una nueva versión;
- Realizar un seguimiento de la localización de los archivos si están almacenados en distintas localizaciones;
- Elegir una sola localización para las versiones importantes o definitivas.
Más información:
UK Data Service
Herramientas para gestionar versiones:
Documentar los datos
Para garantizar que los datos puoden ser replicados de manera sencilla y rendible es imprescindible añadir un fichero
readme.txt con la información necesaria para que los datos sean comprensibles y reutilizables: descripción, metodología, coberturas, derechos de uso, privacidad. Existen diversas guías y plantillas de ayuda para elaborar el archivo: plantilla
readme.txt (elaborada por la Biblioteca da Facultade de Economía de la UDC) y la
Guía para elaborar ficheiro readme da Cornell University.
Además de la documentación explicativa es necesario describir los datos para poder identificarlos, organizarlos y recoger la información sobre cada dato con el fin de poder guardarlo correctamente y hacerlo disponible para que se pueda utilizar en otros sistemas, favoreciendo la reutilización y el acceso a estos datos. Esto también permite su conservación a largo plazo. Esta descripción de los datos se hace a través de los metadatos.
Actualmente existen varios estándares de metadatos para describir los datos. Cada área de conocimiento suele tener su propio estándar de metadatos y herramientas propias para cada tipo de metadatos. Por lo tanto habrá que elegir los más adecuados: para eso, en Metadata Standard Catalog y DCC hay una buena selección, e también en Fairsharing.org.