Înregistrează-te

Implementarea principiilor de date FAIR – ce se află în spatele acronimului?

Am vorbit cu Simon Hodson, director executiv, Comitetul ISC pentru date (CODATA) pentru a afla mai multe.

Datele care stau la baza cercetării științifice sunt cele care alimentează progresele în înțelegerea științifică. Aceste seturi de date dețin indicii vitale pentru multe dintre cele mai presante întrebări cu care se confruntă oamenii de știință astăzi și pot arunca o lumină nouă asupra descoperirilor anterioare – fie validând, fie invalidând istoricul științific existent și deschizând posibilități pentru noi cercetări și noi înțelegeri. Cu toate acestea, acest tip de informații dispar adesea în timpul procesului de publicare a descoperirilor științifice, fie pentru că datele nu sunt partajate, fie pentru că nu sunt disponibile într-un format ușor de accesat și interogat.

„În știință, o mulțime de lucrări minunate ajung să fie publicate ca documente PDF. A fi capabil să tipăriți și să citiți un articol este grozav pentru oameni, dar multe informații care au intrat în construirea a ceea ce este raportat în PDF ajung ascunse. Dacă vrem să obținem o imagine de ansamblu și să ne uităm la toate experimentele care au fost făcute și au fost raportate în literatura de specialitate referitoare la un anumit proces sau reacție, este foarte dificil pentru noi să extragem toate acele informații din toate acele PDF-uri. ,' explică Simon Hodson, director executiv al ISC-CODATA.

În cuvintele chimistului Peter Murray-Rust, obținerea de informații utile din PDF-uri poate fi ca „a reconstrui o vacă dintr-un burger de vită”.

Alunecă pe lângă Dunk prin Flickr.

Există o mulțime de date științifice care au fost produse în cursul multor ani de cercetare, dar în multe cazuri, nu este posibil - și cu siguranță nu ușor - pentru a găsi acele date și a le interoga pentru a le compara cu alte constatări sau cu lucrările în curs. Confruntați cu această enigmă și în conformitate cu imperativul științei deschise, cercetătorii lucrează în prezent pentru a permite în continuare știința bazată pe date prin cadre care sprijină accesibilitatea și interoperabilitatea datelor.

Una dintre cele mai recente și mai proeminente abordări pentru a face acest lucru este FAIR, care încapsulează datele care trebuie să fie pentru a fi cât mai utilizabile și valoroase posibil: datele FAIR sunt date care sunt Findabil; Aaccesibil; Ininteroperabil şi Re-utilizabil.

„Găsibil” înseamnă că datele științifice care sunt publicate ca parte a dovezilor care stau la baza descoperirilor științifice sau produse ca rezultat al cercetării finanțate din fonduri publice, ar trebui să fie disponibile pentru ca alții să le găsească și să le utilizeze. Datele ar trebui să aibă un identificator persistent și neechivoc, precum și metadate suficient de bogate pentru a permite descoperirea.

„Există motive întemeiate pentru protejarea unor date”, spune Simon Hodson, „dar acolo unde aceste considerații nu se aplică, principiile FAIR înseamnă că ar trebui să puteți accesa datele prin web, poate cu autorizare dacă există probleme de securitate. . În mod esențial, principiile FAIR susțin că oamenii de știință ar trebui să poată accesa datele de cercetare în mod programatic, adică și de mașinile lor. Nu este doar faptul că puteți obține datele și le puteți descărca: în mod ideal ar trebui să le puteți interoga cu codul computerului.”

I din FAIR se referă la „interoperabil” – ceea ce înseamnă că puteți combina date din diferite surse: acest lucru depinde în mare măsură de existența unor standarde pentru metadate și terminologii sau vocabulare agreate. De exemplu, metadatele pentru un sondaj social dintr-o anumită țară ar explica în mod clar categoriile de vârstă sau categoriile socio-economice care au fost utilizate și unde se află limitele categoriei, astfel încât datele să poată fi comparate cu ușurință cu datele dintr-un sondaj social. într-o altă țară.

R înseamnă reutilizabilitate: aceasta include o licență care permite oamenilor să refolosească datele și precizează clar condițiile pentru orice reutilizare. De asemenea, înseamnă să aveți informații despre proveniența datelor (de exemplu, cum au fost colectate, ce ajustări sau calibrări au fost utilizate, ce procesare și curățare ulterioară au fost supuse datelor etc.), astfel încât cercetătorii să poată înțelege potențialele puncte forte și limitările datele și folosiți-le cu încredere.

Datele FAIR sunt, de asemenea, „Fully AI Ready”. Pentru a utiliza învățarea automată pentru a identifica modele și pentru a începe să prezică rezultatele în diferite seturi de date, este esențial să existe definiții pentru diferite variabile în setul de date, iar definițiile trebuie să fie ușor accesibile.

„Când datele și serviciile conexe sunt CORECTE, atunci totul este descris astfel încât computerul – și oricine folosește codul – să știe ce definiție a fost folosită pentru concept și variabila aferentă, modul în care au fost obținute măsurătorile și valorile în sine. Apoi putem interacționa cu codul de date, poate descompunându-l, luând un subset, combinându-l cu alte date. Dacă datele sunt CORTE, acest lucru poate fi făcut mult mai eficient, iar analiza și cercetarea în sine sunt de beneficii”, spune Simon Hodson.

Ideea de a avea vocabulare standardizate cu care să exprime conceptele de bază în diverse domenii ale științei nu este deloc nouă. The Uniunea Internațională de Chimie Pură și Aplicată (IUPAC), un membru al ISC, a răspuns nevoii de standardizare internațională în chimie încă de la înființarea sa în 1919. Astăzi, este imperativ ca vocabularele standard să fie adaptate la era digitală și să fie ele însele FAIR. Ca urmare a unui workshop organizat cu inițiativa Data Documentation, un grup condus de Simon Cox (fost membru al Comitetului Executiv CODATA și expert în utilizarea terminologiilor) a publicat „Zece reguli simple pentru crearea unui vocabular FAIR".

Urmând aceste linii directoare, CODATA lucrează în prezent la un vocabular FAIR pentru Profiluri de informații despre pericole publicat de ISC în octombrie 2021. Aceasta va crea o terminologie bazată pe web pentru toate pericolele descrise, care va fi disponibilă pe GitHub și prin intermediul serviciului Research Vocabularies Australia, pentru a fi folosită de oricine. Aceasta înseamnă că guvernele care își dezvoltă strategiile și acțiunile privind reducerea și managementul riscurilor vor putea compara rapid datele cu propriile statistici privind pierderile în caz de dezastre sau cadrele de raportare, de exemplu.

CODATA lucrează, de asemenea, la vocabulare FAIR cu mai mulți membri diferiți ISC, cum ar fi cu Uniunea Internațională pentru Studiul Științific al Populației (IUSSP). Demografia este un domeniu bogat în date și este foarte relevant pentru înțelegerea dezvoltării umane durabile. Făcând terminologii cheie în domeniul științei populației FAIR, IUSSP va contribui la a face datele demografice mai utile pentru agențiile de statistică și pentru oamenii de știință socială, precum și pentru cei care utilizează astfel de date în numeroasele domenii de studiu care utilizează date privind populația, inclusiv cele mai multe domenii legate de dezvoltarea durabilă. Obiectivele de dezvoltare (ODD).

CODATA va întreprinde, de asemenea, lucrări similare cu IUPAC, ca parte a noului proiect de doi ani "WorldFAIR: Cooperare globală cu privire la politica și practica de date FAIR', finanțat de Comisia Europeană prin intermediul acestuia Programul-cadru Orizont Europa. Coordonat de CODATA, Cu Alianța datelor de cercetare Asociația ca partener major, proiectul WorldFAIR va lucra cu un set de unsprezece studii de caz pe domenii și pe mai multe domenii pentru a promova implementarea principiilor de date FAIR, în special a celor pentru interoperabilitate, și pentru a dezvolta un set de recomandări și un cadru pentru FAIR. evaluare într-un set de discipline sau domenii de cercetare interdisciplinare. WorldFAIR va constitui nucleul contribuției CODATA la Proiectul ISC Faceți ca datele să funcționeze pentru marile provocări pe mai multe domenii.

IUPAC conduce studiul de caz al chimiei, analizând modul în care activele informaționale și terminologiile pe care le gestionează IUPAC sunt adecvate pentru era digitalizării și a datelor FAIR. IUPAC se va implica, de asemenea, cu alte studii de caz WorldFAIR privind nanomaterialele și geochimia.

Un alt partener WorldFAIR este Universitatea Drexel, SUA, care a condus proiectul Salud Urbana en América Latina („Sănătatea Urbană în America Latină”) (SALURBAL). SALURBAL a dezvoltat a set de date din mai multe țări pe domenii precum caracteristicile demografice, ratele mortalității, comportamentele și riscurile pentru sănătate, mediul social și mediul construit, permițând comparații între orașe și cartiere din orașele din America Latină. Această resursă uimitoare va permite cercetări relevante pentru politici cu privire la factorii determinanți ai sănătății și inegalităților în materie de sănătate în orașele din regiune. SALURBAL a desfășurat deja o muncă extinsă privind armonizarea datelor. WorldFAIR va ajuta să arunce mai multă lumină asupra acestei lucrări și va face recomandări pentru terminologiile FAIR în sănătatea urbană.

de asemenea poti fi interesat de

Seriale de podcasturi CAG-CEPT, CODATA și UHWB despre „Date-Cunoaștere-Acțiune pentru sistemele urbane

Seria de podcasturi Data-Knowledge-Action for Urban Systems explorează sistemele utilizate pentru a construi sisteme urbane inteligente. Seria reflectă asupra schimbărilor sistematice necesare pentru ca orașele să devină adaptive și inteligente pentru a gestiona bunăstarea urbană. Este găzduit de Centrul pentru Geomatică Aplicată, CODATA și Programul de sănătate și bunăstare urbană (UHWB).


Pe 15 și 16 februarie, Simon Hodson a susținut un briefing despre activitatea CODATA, ca parte a sesiunii de împărtășire a cunoștințelor pentru membrii ISC privind Convergența științei și tehnologiei într-o era digitală.

Rulează video

Puteți afla mai multe despre proiectul WorldFAIR, despre munca CODATA privind vocabularele FAIR și despre inițiativele din diferite discipline de cercetare pentru a face date și active de informații FAIR la Săptămâna internațională a datelor 2022, 20-23 iunie.


Imagine de École polytechnique – J.Barande prin Flickr.

Salt la conținut