Správa výzkumných dat (Research Data Management, RDM) znamená především organizování, skladování a dlouhodobé uchovávání dat získaných během výzkumného projektu.
Přestože efektivní správa dat může být náročná, přináší mnoho výhod nejen samotným autorům dat, ale také širší komunitě a patří k příkladům dobré vědecké praxe. Efektivní správa výzkumných dat tak:
- ukazuje integritu výzkumu, zlepšuje reputaci čestného a pečlivého vědce, což může následně vést k vyšší citovanosti;
- dělá výzkum robustním a replikovatelným;
- pomáhá předvídat potenciální problémy, které se mohou během výzkumného procesu vyskytnout;
- usnadňuje psaní článků a jejich revize;
- dělá data vyhledatelnými;
- snižuje riziko nutnosti stažení článku z důvodu pomíchání dat nebo jejich špatného označení;
- snižuje riziko ztráty dat;
- pomáhá s obhajobou v případě napadení výsledků výzkumu (o data se lze opřít a výsledky obhájit, nebo alespoň dokázat, že byly výsledky uvedeny v dobré víře);
- zajišťuje kontinuitu dlouhodobých projektů a konzistenci projektů, do kterých je zapojeno více vědeckých pracovníků;
- zajišťuje, že výzkumný projekt splňuje všechny podmínky stanovené poskytovateli financí a vydavateli;
- umožňuje pokrok v celosvětovém výzkumu díky možnosti opakovaného využití dat.
Správa dat v rámci výzkumného projektu
Práci s daty je třeba začít řešit ještě před začátkem samotného projektu. Ve fázi plánování výzkumného projektu by se řešitelé měli zamyslet nad tím, jaká data budou ke svému výzkumu potřebovat, jak je získají (budou vytvářet vlastní data, nebo mohou použít již existující?), kde budou data skladována, kdo se o ně bude starat atd. Ještě před začátkem projektu či v jeho počáteční fázi byl měl být také vytvořen plán pro správu výzkumných dat, neboli Data Management Plan (DMP).
Poté, co začne sběr dat, ať už budou generována nová data, nebo využita ta již existující, je třeba dbát na jejich zpracování, skladování a zabezpečení. Je důležité, aby byla data pečlivě a správně popsána (např. jakým způsobem data vznikala, co jednotlivé údaje znamenají, přehledné verzování). Pozornost by měla být věnována i tomu, kde jsou data během výzkumu skladována a zálohována a zda je toto úložiště dostatečně zabezpečené, obzvláště pokud se jedná o citlivé údaje.
Když se blíží konec projektu, mělo by být jasné, co se s daty stane po jeho skončení. Je nutno rozmyslet, jaká data je možné smazat a která by naopak měla být dlouhodobě uchována (doporučujeme si prostudovat návod Pět kroků pro výběr dat pro dlouhodobé uchování zpracovaný Centrem pro podporu open science UK), a zvážit možnost data sdílet. Pokud padne rozhodnutí data zpřístupnit, je třeba dbát na to, aby byla FAIR* a nezapomenout na pravidla ochrany osobních údajů a v případě potřeby, data anonymizovat. K anonymizaci lze využít například nástroj Amnesia dostupný na webu OpenAIRE. Jsou-li data publikována otevřeně**, je vhodné opatřit je licencí (nejlépe CC), aby uživatelé věděli, jak s nimi mohou nakládat. Ať už jsou data sdílena či nikoli, je třeba zvážit možnost uložit je v datovém repozitáři, aby bylo zajištěno jejich dlouhodobé uchování.
* FAIR data jsou taková data, která jsou spravována v souladu s principy FAIR, tedy jsou nalezitelná (Findable), dostupná (Accessible), interoperabilní (Interoperable) a opětovně využitelná (Reusable). FAIR data mohou, ale nemusí být zároveň otevřená – omezení přístupu k datům může být za určitých podmínek v souladu s principy FAIR. V ideálním případě by data měla být otevřená a zároveň naplňovat principy FAIR.
** Pojmem otevřená data se označují taková data, která jsou volně dostupná online, lze je opakovaně využívat, kombinovat s jinými datovými sadami a dále je redistribuovat. Otevřená data by měla být spravována podle principů FAIR, aby jim potenciální uživatelé snadno porozuměli, ale i data, která nejsou spravovaná, jsou považována za otevřená, pokud přístup k nim není omezen.
V rámci projektu DocEnhance vznikl volně dostupný Data Stewardship Course. Kurz sestává ze tří modulů, z nichž Modul 1 je nyní nově dostupný i v Moodle UPCE a zabývá se obecným úvodem a základy zacházení s výzkumnými daty v doktorské práci. Kurz je celý v anglickém jazyce a je zakončen testem.
Užitečné zdroje:
- CESSDA: Data Management Expert Guide (zaměřeno na sociální vědy)
- OpenAIRE: A Research Data Management Handbook
- The University of Edinburgh. MANTRA: Research Data Management training (volně dostupný online kurz)
- MARKOWETZ, Florian. Five selfish reasons to work reproducibly. Genome Biology [online]. 2015, 16(1) [cit. 2022-12-07]. ISSN 1474-760X. Dostupné z: doi:10.1186/s13059-015-0850-7.
- WILKINSON, M. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data [online]. 2016, 3(160018). Dostupné z: doi.org/10.1038/sdata.2016.18.
Při zpracování byly využity stránky Centra pro podporu open science Univerzity Karlovy.
Foto: "Research Data Management" by jannekestaaks is licensed under CC BY-NC 2.0.