HUB

Buenas Prácticas

Fuentes de datos

Almacenar datos

Buenas Prácticas

 

Como investigadores o gestores forestales en nuestro trabajo estamos acostumbrados a tratar con datos diversos, tanto cuantitativos como cualitativos. Sin embargo, habitualmente no disponemos de formación adecuada sobre este tema.

Conocer más...

La gestión efectiva y eficiente de datos es una de las actividades críticas en cualquier organización. . Una buena planificación en la gestión de datos puede ayudar al desarrollo de nuestro trabajo.

Conocer más...

El almacenamiento de datos es una fase clave para que estos sean reutilizables y puedan enriquecer nuestro trabajo futuro. 

Conocer más...

La recolección, revisión y mantenimiento de bases de datos a largo plazo son claves en la investigación forestal y de otros ecosistemas por ello los conjuntos de datos son cada vez más reconocidos como productos académicos por derecho propio, y como tal, ahora se pueden presentan para su publicación de forma independiente de los análisis científicos.

Conocer más...

El desarrollo de aplicaciones informáticas se ha convertido en una fase clave en el proceso de difusión de resultados y transferencia de conocimiento en investigación. Nuevas habilidades en programación y comunicación digital efectiva son cada día más necesarias para dar a conocer investigaciones basadas en Ciencia de Datos.. 

Conocer más...

El almacenamiento de datos es una fase clave para que estos sean reutilizables y puedan enriquecer nuestro trabajo futuro. Algunas cuestiones básicas que nos debemos hacer para realizar un almacenamiento efectivo son, entre otras: ¿Qué datos debemos almacenar?, ¿cúal es el formato más adecuado para almacenar datos?, ¿cuál es el repositiorio que mejor encaja en mis objetivos y necesidades? o ¿cuál es la licencia de reutilización que debo plantear?

01. Organización de archivos y ficheros.

01. Organización de archivos y ficheros.

Unos ficheros bien organizados, con archivos con nombres bien definidos, siempre ayudan a encontrar la información de forma rápida y fácil. Échale un vistazo a la imagen de la Figura 3, que te damos como ejemplo de organización de archivos y ficheros creados para un proyecto hipotético de investigación.

Es importante pensar bien la jerarquía y la estructura para los archivos, sobre todo cuando trabajas con otra gente, y sobre todo es importante que organices los archivos en función del tipo de información que contienen y de la actividad de la que se trate. Es conveniente que no haya más de tres o cuatro niveles de profundidad y que cada carpeta no contenga más de diez archivos.

El nombre del archivo es el identificador principal del archivo; así que nomínalo de forma que contenga información útil (pista para la búsqueda), el estatus o versión del archivo. Estos son los nombres de algunos programas para renombrar archivos: Bulk Rename Utility para Windows, Ant Renamer, RenameIT y Rename4Mac.

En investigación colaborativa es esencial guardar todas las versiones o ediciones a través del nombre del archivo. Los nombres de los archivos deberían ser independientes del lugar donde se guarden en un ordenador.

 

Figura 3. Ejemplo de organización de ficheros en un proyecto de investigación (Fuente: www.ukdataservice.ac.uk).

 

Algunas pautas para nombrar y organizar bien los archivos son:

  • Crear nombres cortos pero con significado.
  • Usa el nombre de los archivos para clasificar los tipos de archivos
  • Usa guiones (-) o guiones bajos (_) para separar elementos en el nombre del archivo.
  • Evita usar espacios, puntos y caracteres especiales (&, ?, !) en el nombre.
  • Evita nombres demasiado largos
  • Aprovecha las tres últimas letras de la extensión del archivo (e.g. .doc, .xls, .mov, .tif) para la aplicación de códigos específicos y la organización de los archivos.
  • Incluye la versión en el nombre del archivo cuando sea necesario.

Aquí tienes algunos ejemplos de nombres óptimos de archivos:

  • Int024_AP_2008-06-05.doc : interview with participant 024, interviewed by Anne Parsons on 5 June 2008
  • BDHSurveyProcedures_00_04.pdf : version 4 of the survey procedures for the British Dental Health Survey

Y otros ejemplos de nombres pobres de archivos:

  • SrvMthdDraft.doc, SrvMthdFinal.doc, SrvMthdLastOne.doc and SrvMthdFridaynight.doc
  • Focus group consumers 12 Feb?.doc
  • Health&Safety Procedures1

Fuente:

https://www.ukdataservice.ac.uk/manage-data/format/organising.aspx

02. Consejos para (volcar) la entrada de datos

02. Consejos para (volcar) la entrada de datos

La digitalización, la transcripción y la entrada de datos a una base de datos o una hoja de cálculo, o de código tienen que ser consistentes para asegurar la calidad de los datos. Para ello, es útil crear unas instrucciones que sigan un método estandarizado o protocolo. Éste puede incluir:

  • Reglas de validación o comandos de entrada de datos en programas;
  • Uso de pantallas o interfaces de entrada de datos;
  • Uso de vocabulario específico, listas de códigos o listas de selección para minimizar la entrada manual de datos;
  • Etiquetado detallado de las variables y los casos o entradas para evitar el error;
  • El diseño de la estructura de una base de datos para organizar los datos y los ficheros;
  • Notas adjuntas y documentación a cerca de los datos.

De igual forma, es imprescindible la comprobación de los datos cuando son editados, limpiados, verificados, cruzados y validados. Esta comprobación conlleva procedimientos manuales y automatizados que pueden incluir:

  • Doble comprobación del código de las observaciones o las respuestas y los valores fuera de rango;
  • Comprobar que la base de datos está completa;
  • Añadir variables y etiquetas de valores donde sea necesario;
  • Verificación de muestras aleatorias de los dato digitales contra los datos originales;
  • Comprobación de la doble entrada de datos;
  • Análisis estadísticos como frecuencias, medias, rangos o agrupación para detectar errores y valores anómalos;
  • Corregir los errores hechos durante la transcripción;
  • Revisión de los datos por otra persona (peer review)

Fuente:

https://www.ukdataservice.ac.uk/manage-data/format/quality.aspx

03. Digitalización de datos.

03. Digitalización de datos.

Los datos que no son digitales pueden convertirse en datos digitales de varias formas en función de su formato y condición. La información puede volcarse manualmente a una base de datos o convertirla en texto con ayuda de un teclado. En el caso de las imágenes, pueden escanearse con un escáner o mediante fotografía digital; mientras que el texto puede digitalizarse mediante reconocimiento óptico de caracteres mediante un escáner.

Las imágenes escaneadas o fotografiadas pueden archivarse en formato TIFF, mientras que los archivos de audio pueden guardarse en formato WAV, y los vídeos en formato MPEG o en formato de movimiento JPEG 2000. En el caso de textos, estos pueden digitalizarse de formas diferentes dependiendo de la calidad de la escritura y tipografía o tipo de letra. Una opción muy buena, sobre todo cuando hay gráficos y tablas también, es escanear el texto y guardarlo como un archivo de imagen TIFF. Si el material es muy importante se debe fotocopiar antes de escanearlo, y utilizar la copia para el escaneo. También resulta práctico crear un PDF con todas las imágenes escaneadas cuando hay muchas. Otras veces, para digitalizar el texto lo que interesa es utilizar un programa de reconocimiento óptico de caracteres (OCR), o hacer la clásica transcripción de forma manual.

Encontrarás más información en el enlace de la Fuente.

Fuente:

https://www.ukdataservice.ac.uk/manage-data/format/digitisation.aspx

04. Cifrado de datos.

04. Cifrado de datos.

El cifrado es el proceso de codificación o encriptación de la información digital; de tal forma que sólo el personal autorizado tiene acceso a esa información. Se pueden encriptar archivos, ficheros, discos y dispositivos USB de almacenamiento. Los programas de encriptación utilizan algoritmos para codificar la información y una clave para descifrar la información. La protección varía con el tipo y el grado de cifrado de la información. De forma que cuanto más sensible o importante sea la información que queremos proteger, mayor tendrá que ser el grado de encriptación. El cifrado también se utiliza para verificar la identidad de la persona que envía la información y la integridad de los datos. Existen numerosos programas para el cifrado de información como:

  • – para Windows; para el cifrado de discos y dispositivos USB.
  • – para Apple Macs; para el cifrado del disco entero.
  • – para Windows, Mac and Linux; para el cifrado del disco entero.
  • – para cifrado (open source) de archivos de Windows
  • – para cifrado de archivos, ficheros y dispositivos. Existen versions libres y de pago disponibles para Windows.

PGP – Pretty Good Privacy (PGP) puede encriptar cualquier cosa y se le reconoce como el programa de encriptación disponible más extendido. Existen versiones de fuente abierta (Gpg4win) y versions comerciales.

Fuente:

https://www.ukdataservice.ac.uk/manage-data/store/encryption.aspx

05. Transcripción de datos.

05. Transcripción de datos.

Cuando los datos con los que vamos a trabajar se recogen en formato audio-visual es necesario transcribirlos o convertirlos en archivos de texto para poder archivarlos y compartirlos. Ayúdate con alguna guía o modelo, instrucciones o convención para conseguir una buena transcripción de calidad y con consistencia.

Una conversión de calidad debe tener, al menos:

  • Un identificador (nombre o número) único.
  • Un diseño uniforme y consistente a lo largo de todo el proyecto de investigación o la toma de datos.
  • Un encabezado o una hoja de presentación con los detalles del evento como la fecha, lugar, el nombre del entrevistador y otros detalles de la entrevista.
  • Etiquetas para indicar en una conversación la secuencia o turno de preguntas/respuestas o el turno.
  • Saltos de línea entre los turnos de pregunta/respuesta.
  • Páginas numeradas
  • Pseudónimos para anonimizar la información personal

En el siguiente enlace (Fuente) tienes más información para decidirte por el formato o el modelo de transcripción y el mejor método.

Fuente:

https://www.ukdataservice.ac.uk/manage-data/format/transcription.aspx

06. Formatos de archivos para almacenar datos a largo plazo.

06. Formatos de archivos para almacenar datos a largo plazo.

Los datos digitales existen en formatos de archivo específico que son codificados para que un programa pueda leer e interpretar esos datos. Los datos de investigación existen en muchos formatos diferentes: numéricos, de texto, imágenes, grabaciones audio-visuales, geoespaciales, bases de datos, y datos generados por máquinas o instrumentos.

El formato y el programa en los que se crean los datos de investigación dependen de cómo deciden los investigadores tomar y analizar los datos, lo que a su vez está determinado por la metodología y los estándares de la disciplina específica del investigador.

El uso de formatos de archivos estándar e intercambiables o de datos en abierto asegura una mayor usabilidad de los datos. Para la conservación de datos a largo plazo, los datos digitales se convierten a dichos formatos. Los datos deberían estar nombrados de forma clara, bien organizados, estructurados y controlados en cuanto a calidad y versión a lo largo de todo el ciclo de vida del proyecto de investigación. Es muy importante que se desarrollen procedimientos apropiados antes de coger los datos y que sigas alguna guía de instrucciones, modelo o convención para asegurar la calidad y la consistencia durante la etapa de toma de datos.

Una vez que se han tomado los datos, la opción más segura para conservarlos y garantizar un acceso abierto y usabilidad de los mismos es convertir los datos a formatos estándar que la mayoría de los programas sean capaces de interpretar.

Esto implica utilizar formatos abiertos o estándar como

  • Open Document Format (ODF).
  • ASCII.
  • Formato delimitado por tabulaciones.
  • Valores separados por comas o formato XML) en lugar de conservarlos utilizando formatos con propietario (ejemplos: Microsoft Excel, Statistica o SPSS).
  • A su vez, estarás asegurando la recuperación de los datos en caso de fallo o pérdida de los archivos originales.

Fuente:

www.ukdataservice.ac.uk

07. Copias de seguridad

07. Copias de seguridad

Los datos son probablemente el ítem más importante de una investigación. Tanto en estado bruto, como intermedio y final, poseen una carga de información crítica y es muy importante asegurarse de que se va a disponer de esos datos durante todo el transcurso del trabajo científico.

Las copias de seguridad sirven para mantener a salvo nuestros datos de infortunios o de acontecimientos imprevistos que puedan diezmarlos o hacerlos desaparecer (cuelgue de un ordenador, pérdida de memorias Flash…etc.). Las copias de seguridad garantizan una continuidad y un almacén seguro de los datos y evitan este tipo de situaciones de pérdida. Se deben realizar con regularidad y en todas las fases de los datos (datos brutos, en estado intermedio, y finales). A ser posible, deberán realizarse en diferentes localizaciones (memorias Flash, intranets, discos duros externos, la nube…).

La regla LOCKSS (Lots of copies keep stuff safe) sugiere que cuantas más copias se realicen más a salvo se encontrarán los datos. Dependiendo de la situación, en algunos casos es más recomendable realizar menos copias, pero estar seguros de su regularidad y de su localización.

08. Conservación y archivo de datos.

08. Conservación y archivo de datos.

Es necesario hacer un plan de archivo y conservación de datos a corto y largo plazo. La conservación a corto plazo, es decir durante la investigación, sólo considera donde archivar los datos, mientras que a largo plazo tendrá en cuenta donde archivar los datos para un uso nuevo después de que acabe la investigación.

La accesibilidad a los datos dependerá en gran medida de la calidad del soporte para almacenar los datos. Por ejemplo, un disquete podría funcionar perfectamente después de 20 años de su creación, pero la falta de máquinas para utilizarlo supondría un problema para la recuperación de los datos. Los medios ópticos son vulnerables al daño por cambios en la humedad, la temperatura, la calidad del aire y de la luz, etc.

Debería hacerse una copia de los datos en medios de conservación nuevos cada 2-5 años después de la creación. También es una buena práctica comprobar en intervalos regulares el estado de los archivos en esos discos o soportes de conservación. Los medios magnéticos como discos duros también están sujetos a la degradación física y deberían ser cambiados regularmente por medios nuevos. Sea cual sea la estrategia de conservación, incluso si es a corto plazo, es bueno guardar al menos en dos formas de almacenamiento, por ejemplo: en disco duro y DVD. La integridad de los datos debería comprobarse periódicamente. Finalmente, no olvides de conservar también toda la información o metadatos necesarios para que los datos puedan ser usados de forma adecuada en el futuro.

Fuente:

www.ukdataservice.ac.uk

09. Repositorios. Dónde depositar los datos.

09. Repositorios. Dónde depositar los datos.

Un repositorio es una plataforma centralizada donde se almacena, organiza y mantiene y difunde información digital, habitualmente archivos informáticos que pueden contener trabajos científicos, conjuntos de datos o programas de ordenador. Los datos de investigación se deben depositar en un repositorio de datos que garantice, tanto la recuperación y acceso a los datos, como la preservación a largo plazo.

Los datos pueden ser almacenados, además, en repositorios y/o en las plataformas editoriales junto con las publicaciones en el caso de determinadas revistas que permiten esta opción. Ambas opciones deben garantizar la visibilidad a dichos datos, así como su preservación, y facilitar su acceso y reutilización. Un impulso y apoyo importante a los repositorios es el resultado de los mandatos de acceso abierto de muchas agencias financiadoras que requieren su uso para el depósito permanente, difusión en acceso abierto y preservación digital de los resultados de los proyectos financiados.

Por ejemplo, desde el año 2017, todos los proyectos financiados por el marco europeo de investigación “Horizon 2020” deben depositar sus datos en acceso abierto. Un valor añadido de los repositorios es el efecto multiplicador resultante de la indexación automatizada y masiva por parte de un amplio abanico de motores de búsqueda gratuitos, portales temáticos y agregadores de resultados de investigación en acceso abierto, lo que aumenta exponencialmente la visibilidad y la accesibilidad de los contenidos de los repositorios.

A la hora de seleccionar el repositorio para el depósito debemos tener en cuenta:

  • Si la agencia financiadora me obliga a depositar en un repositorio concreto.
  • Utilizar siempre el repositorio de tu institución.
  • Considerar el ámbito temático (hay repositorios multidisciplinares y temáticos) y el ámbito geográfico. Conocer que repositorios usan los investigadores de mi área.
  • Tener en cuenta el tamaño aproximado de los archivos de datos.
  • Facilidad para la recuperación de datos.
  • Asignación de un identificador único y persistente para cada conjunto de datos (DOI, Handle o URN).
  • Identificar si los datos son abiertos, embargados, restringidos o cerrados.
  • Tener en cuenta la licencia con la que quieren difundirse los datos.

Antes del depósito en repositorios de trabajos publicados en revistas indexadas, recomendamos consultar Sherpa Romeo para conocer las políticas de permisos de los editores para auto-archivo en otras webs institucionales, webs personales o repositorios temáticos.

Aquí tienes algunos ejemplos de repositorios y colecciones de repositorios nacionales, europeos e internacionales:

  • UVaDoc ofrece en acceso abierto y a texto completo los documentos de carácter científico, docente e institucional generados por la Universidad de Valladolid.

 

  • Digital.csic.es es un repositorio científico multidisciplinar de documentos digitales que recoge los resultados de la labor investigadora realizada en todos y cada uno de los centros e institutos del Consejo Superior de Investigaciones Científicas (CSIC) y otras instituciones, en acceso abierto.

 

  • Recolecta-Recolector de Ciencia Abierta es una plataforma de la FECYT que agrupa a todos los repositorios científicos nacionales y que provee de servicios a los gestores de repositorios, a los investigadores y a los agentes implicados en la elaboración de políticas (decisores públicos).

 

  • PubMEd Central (PMC) es un repositorio temático especializado en Medicina, pero que ha tenido mucho éxito y se ha convertido en una fuente de referencia para investigadores-as de todo el mundo.

 

 

 

  • La guía OpenAIRE es una guía donde se explica qué criterios se pueden aplicar a la hora de seleccionar el repositorio para los datos de investigación.

 

  • Zenodo es un repositorio multidisciplinar de acceso abierto desarrollado por el CERN . Es el más aconsejado para proyectos de investigación H2020. Enlaza directamente con OpenAIRE. Además tiene integración con ORCID y GitHub, espacios colaborativos (Community collections) y permite exportar citas a gestores bibliográficos y redes sociales.

 

Fuentes:

https://es.wikipedia.org/wiki/Repositorio

http://biblioteca.uoc.edu/es/investigacion/herramientas

https://ddd.uab.cat/pub/guibib/150829/repositorisdades_2018iSPA.pdf

https://digital.csic.es

https://digital.csic.es/dc/accesoAbierto.jsp

https://guiasbuh.uhu.es/c.php?g=498100&p=4749789

Revistas Open Access: características, modelos económicos y tendencias

10. Seguridad y control de calidad.

10. Seguridad y control de calidad.

La seguridad de los datos para evitar un acceso no autorizado, la revelación de datos, cambios indeseables o destrucción requiere seguridad física, seguridad en los sistemas informáticos y de archivos, y seguridad en la red de trabajo. Los mecanismos de seguridad de datos tienen que ser proporcionales a la naturaleza de los mismos y a los riesgos potenciales. El cifrado puede ser útil para almacenar y para enviar archivos. Es bueno hacer recuperaciones regulares para protegerse contra la pérdida accidental o maliciosa de datos, y asegurar la calidad de los datos. Este procedimiento puede automatizarse fácilmente. Los datos que contengan información personal deben tratarse con mayor nivel de seguridad. Los datos que tengan que destruirse porque ya no tienen uso o por otra razón, se eliminarán formateando los discos duros o destruyendo los soportes donde se encuentren. Intenta controlar el acceso a edificios, habitaciones, ordenadores o materiales de copia de datos, emplea registros de acceso a estos sitios, y evita transportar los datos sensibles. No guardes archivos con datos sensibles (datos personales, por ejemplo) en servidores u ordenadores conectados con una red externa que albergue servicio de internet. Protege tus archivos con sistemas antivirus y cortafuegos. Utiliza claves en los ordenadores donde tengas tus datos almacenados a corto plazo. Regula el acceso a ficheros y ordenadores implementando un sistema de protección con contraseña (sin acceso, acceso con contraseña, sólo lectura, etc.). Implanta acuerdos de no divulgación para los usuarios o gestores de datos confidenciales.

Los sistemas de almacenamiento basados en la nube como Google Drive, Dropbox, OneDrive, iCloud o YouSendIt son muy fáciles de usar pero no son necesariamente permanentes y seguros. Estos sistemas no deberían emplearse para información sensible, con contenido intelectual importante o valor comercial. Una buena alternativa es el uso de servidores SFTP (Secure File Transfer Protocol) o los sistemas de gestión segura de contenidos administrados por una institución.

Fuente:

www.ukdataservice.ac.uk

DÓNDE ESTAMOS

ETS Ingenierías Agrarias Universidad de Valladolid - Avd. Madrid s/n
34004 - PALENCIA - Localización
www5.uva.es/etsiiaa/


INIA-CIFOR - Ctra. A Coruña km 7,5
28040 - MADRID - Localización
www.inia.es

Drupal 7 Appliance - Powered by TurnKey Linux