En la esfera de la investigación científica está ocurriendo una transformación histórica. El impulso de la ciencia abierta, ligado al avance de las TIC, y el gran aumento del volumen de datos son elementos invariantes para planificar, ejecutar y comunicar los resultados de las investigaciones. La gestión de datos de investigación surge como nuevo elemento de la comunicación científica que incide en los investigadores, las instancias de publicación, la indexación y la evaluación de la ciencia. En este entorno, el análisis de grandes volúmenes de datos (bigdata) y su valor es más grande que nunca antes y sigue aumentando.
En especial, en la investigación científica, existen diferentes tipos de datos, clasificados en función de la metodología aplicada para obtenerlos. Entre los principales tipos se encuentran los observacionales, que corresponden a los registros históricos (solo se pueden obtener en un momento y lugar únicos); los datos experimentales, o sea, los que se generan con la aplicación de diferentes tipologías de experimentos; también están los datos computacionales, que pueden incluir datos de entrada o registros de actividad de aplicaciones; de igual forma, así como los datos de simulación, generados a partir de modelos de prueba. Estos juegos de datos o datasets, cada vez con más frecuencia, se publican en repositorios de datos diseñados con esta finalidad para poder ser accedidos y a su vez citados.
Aunque todavía no es generalizada esta práctica, es una necesidad internacional que los organismos públicos de financiación, las universidades, las fundaciones, las publicaciones periódicas, etc., ofrezcan estos servicios de almacenamiento y exijan a los investigadores su publicación. Sobre todo, insistir a los investigadores que junto a sus documentos electrónicos publicados brinden los enlaces a sus datasets. De igual forma, hacer ver a los investigadores el valor de los datos y su potencial para el reconocimiento de su trabajo, tanto en sus círculos profesionales, como por el aumento de la citación que puede generar su consulta y reutilización.
Dada la importancia que ha ganado la publicación de los datos, las principales editoriales como Elsevier, Springer, etc., así como instituciones y universidades, han creado este nuevo servicio, con niveles de organización por materias, descriptores y metadatos que permiten una indexación y búsqueda eficiente. Por solo mencionar algunos de los más populares son: Harvard Dataverse, Open Science Framework y Mendeley Data
Recientemente la revista Nature publicó una lista bastante exhaustiva de repositorios recomendados de datos “Recommended Data Repositories”, organizado por áreas de la ciencia, que puede ser de gran utilidad a los investigadores.
De igual forma, han proliferado buscadores especializados de datasets, que permiten la búsqueda y recuperación de juegos de datos asociados a investigaciones científicas. A continuación, se comentan 2 interesantes iniciativas:
Dataset Search de Google
Google Dataset Search (https://toolbox.google.com/datasetsearch), permite que los usuarios puedan buscar conjuntos de datos almacenados en Internet por palabras clave. Esta herramienta muestra información sobre conjuntos de datos alojados en miles de repositorios de Internet; de esta forma, cualquier usuario puede acceder a ellos y aprovechar la información que contienen.
Este proyecto también tendrá otras ventajas, ya que permitirá a) crear un ecosistema de intercambio de datos que fomentará que los editores de datos sigan las prácticas recomendadas para almacenar y publicar datos, y b) ofrecer a los científicos una manera de mostrar el impacto de su trabajo a través de las citas de los conjuntos de datos que hayan producido.
DataSearch de Elsevier
DataSearch (https://datasearch.elsevier.com/) es un motor de búsqueda de Elsevier, asociado a Scopus, dedicado a datos primarios de investigación. Es el primer motor de búsqueda que puede buscar no solo en la descripción o metadatos de los artículos, sino también en los datos en sí. También es posible ver una vista previa de los datos directamente desde los resultados de búsqueda, así como descargar el conjunto de datos completo. La nueva colaboración con DataSearch significa que cuando ejecuta una búsqueda en Scopus, la misma búsqueda se ejecutará simultáneamente en DataSearch. Si se encuentran resultados de datos, encontrará un enlace (que enumera el número de resultados encontrados) en la página de resultados de búsqueda de Scopus.
Además, en este propio sitio, Elsevier propone 10 aspectos o pasos (recomendaciones) a tener en cuenta para el manejo efectivo de los datos y su ciclo de vida, estos son:
A modo de conclusiones, los datos de ciencia abierta son un tipo de datos abiertos centrados en la publicación de observaciones y resultados de la aplicación de métodos científicos y actividades científicas disponibles para que cualquiera pueda analizar y reutilizar. Uno de los principales objetivos de la disponibilidad de datos abiertos en la ciencia es permitir la transparencia y verificación de afirmaciones científicas, al posibilitar que otros vean la reproducibilidad de los resultados, y permitir que los datos de muchas fuentes se integren para proporcionar nuevos conocimientos. Es por ello que esta práctica debe formar parte del proceso de investigación científica en la actualidad.
Comments are closed