Organizar e documentar os datos

Escoller o formato adecuado

A medida que a tecnoloxía cambia, os investigadores deben planificar tanto a obsolescencia de hardware como de software e considerar a lonxevidade das súas opcións de formato de arquivo para asegurar a lexibilidade e o acceso a longo prazo.

Os formatos de arquivo máis propensos a ser accesibles no futuro teñen as seguintes características:

  • Non propietario
  • Abertos e documentados
  • Uso común por parte da comunidade investigadora
  • Representación estándar (ASCII, Unicode)
  • Sen cifrado
  • Sen comprimir

Estes son algúns exemplos de formatos de arquivo FAIR preferidos para a preservación:

  • Contedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Xeoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Vídeo: MPEG, AVI, MXF, MKV
  • Sons: WAVE, AIFF, MP3, MXF, FLAC
  • Estatísticas: DTA, POR, SAS, SAV
  • Imaxes: TIFF, JPEG 2000, PDF, PNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF/A, HTML, JSON, TXT, RTF
  • Arquivo web: WARC

Considere migrar os seus datos nun formato coas características anteriores, ademais de manter unha copia no formato de software orixinal. Teña en conta que, nalgúns casos, a migración de datos a un formato aberto pode causar perda de datos/metadatos.

Se deposita os seus datos nun repositorio, os seus arquivos poden ser migrados a formatos máis novos, para que sexan utilizables por futuros investigadores.

Máis información

Algunhas ferramentas para a conversión de formatos: 

 

Estrutura dos ficheiros

O nome, a estrutura dos cartafoles e o control de versións dos ficheiros deben facilitar a procura, localización e comprensión dos datos. Por iso, é moi importante planificar ben esta cuestión.

Recomendacións para nomear os arquivos:

  • Nomear os arquivos con nomes curtos e relevantes
  • Non utilizar caracteres especiais: ! @ # $ % ^ & * ( ) ` ; < > ? , [ ] { } ' " |
  • Usar o guion baixo, mellor que o espazo en branco
  • Ser consistente coa nomenclatura que se escolle, maiúsculas, minúsculas, forma das datas, AAAA‐MM‐DD ou AAAA‐MM.

Máis recomendacións, neste documento elaborado polo Servizo de Biblioteca da Universidade da Coruña.

Ferramentas para renomear cartafoles: ​

Recomendacións para a organización dos cartafoles:
 
  • Pensar a mellor xerarquía para os arquivos: profunda ou superficial;
  • Organización sistemática dos cartafoles e ficheiros;
  • Restrinxir o nivel de cartafoles a tres ou catro;
  • Separar os traballos finalizados dos que están en curso.
 
Máis información: UK Data Service
 
Recomendacións para o control de versións:
 
  • Se hai varias versións, nomear por número (por exemplo v01, v02 etc.);
  • Para a versión final pódese nomear como FINAL;
  • Decidir cantas versións dun arquivo e que versións conservaranse e durante canto tempo;
  • Rexistrar os cambios realizados nun arquivo cando se crea unha nova versión;
  • Realizar un seguimento da localización dos arquivos se están almacenados en distintas localizacións;
  • Elixir unha soa localización para as versións importantes ou definitivas.
 
Máis información: UK Data Service
 
Ferramentas para xestionar versións:​
 
 
 
Documentar os datos
Para garantir que os datos poden ser replicados de maneira sinxela e rendible é imprescindible engadir un ficheiro readme.txt coa información necesaria para que os datos sexan comprensibles e reutilizables: descrición, metodoloxía, coberturas, dereitos de uso, privacidade. Existen diversas guías e plantillas de axuda para elaborar o arquivo: plantilla readme.txt (elaborado pola Biblioteca de Economía da UDC) e a Guía para elaborar ficheiro readme da Cornell University.

 

Ademais da documentación explicativa é preciso describir os datos para poder identificalos, organizalos e recoller a información sobre cada dato co fin de poder gardalo correctamente e dispoñelo para que se poida empregar noutros sistemas, favorecendo a reutilización e o acceso a estes datos. Isto tamén permite a súa conservación a longo prazo. Esta descrición dos datos faise a través dos metadatos.

Na actualidade existen varios estándares de metadatos para describir os datos. Cada área de coñecemento adoita ter o seu estándar propio de metadatos e ferramentas propias para cada tipo de metadatos. Polo tanto haberá que escoller os máis axeitados: para iso en Metadata Standard Catalog e DCC hai unha boa selección e tamén en Fairsharing.org.