DANE BADAWCZE – wytyczne UMP

Wytyczne Uczelni o deponowaniu danych (Zarządzenie Rektora nr 115/21 z dnia 15 września 2021 r.)[226 KB, PDF]

§ 4 Otwarty dostęp do Danych Badawczych
1. Pracownicy i doktoranci Uniwersytetu Medycznego w Poznaniu oraz inne osoby, o których mowa w § 1 ust. 2, zapewniają otwarty dostęp do pozostających w ich dyspozycji danych badawczych oraz powiązanych z nimi metadanych przez:
1) opracowanie Planu Zarządzania Danymi Badawczymi (ang. Data Management Plan), a więc ustanowienie zasad zarządzania danymi badawczymi w trakcie i po zakończeniu badań naukowych lub prac rozwojowych, w szczególności określenia rodzajów danych badawczych, zasad korzystania z nich, w tym procedur ich udostępniania i archiwizacji;
2) zdeponowanie ich, w formie elektronicznej, w repozytorium MOST WIEDZY, a w przypadku utworzenia takiego repozytorium na Uniwersytecie Medycznym w Poznaniu w tymże repozytorium;
3) jeśli to możliwe: publiczne udostępnienie danych badawczych zgodnie z zasadami FAIR wraz z udzieleniem odpowiednich licencji niewyłącznych analogicznych do przewidzianych w § 3 ust. 2;
4) doprowadzenie do identyfikowalności danych badawczych, np. za pomocą standardów takich jak DOI (cyfrowy identyfikator dokumentu elektronicznego), tak aby dane badawcze były dostępne, możliwe do wyszukania i nadawały się do ponownego wykorzystania;
5) zawieranie stosownych porozumień z podmiotami wchodzącymi w skład zespołów badawczych, konsorcjów naukowych lub innymi właściwymi podmiotami lub współtwórcami danych badawczych.
2. Dopuszcza się ograniczenie przez pracowników i doktorantów Uniwersytetu Medycznego w Poznaniu zakresu korzystania z danych badawczych poprzez wskazanie wybranych kategorii osób uprawnionych do korzystania.
3. Wsparcie w spełnieniu wymagań przewidzianych w § 3 ust. 4, w szczególności w zakresie kontaktu z wydawcami, zapewniają:
1) Pełnomocnik Rektora Uniwersytetu Medycznego w Poznaniu ds. otwartego dostępu;
2) pracownicy Biblioteki Głównej Uniwersytetu Medycznego w Poznaniu;
3) Zespół Radców Prawnych Uniwersytetu Medycznego w Poznaniu.

Dane badawcze, które zostały wytworzone w trakcie badań naukowych realizowanych w oparciu o infrastrukturę badawczą naszej Uczelni deponujemy w Moście Danych.
Jest to repozytorium danych badawczych powstałe we współpracy trzech uczelni: Politechniki Gdańskiej, Uniwersytetu Gdańskiego oraz Gdańskiego Uniwersytetu Medycznego.

Na naszej Uczelni osobami odpowiedzialnymi za dane badawcze są:

dr hab. Barbara Poniedziałek – Pełnomocnik Rektora ds. otwartego dostępu do publikacji naukowych i danych badawczych w UMP
bpon@ump.edu.pl

dr hab. Agnieszka Zawiejska
azawiejska@ump.edu.pl

dr Tomasz Krauze
tomaszkrauze@ump.edu.pl

mgr Tomasz Motyl
tmotyl@ump.edu.pl

DANE BADAWCZE – najważniejsze zagadnienia

Dane badawcze to wszelkie dane, które zostały zebrane, zaobserwowane bądź stworzone podczas procesu badawczego, mającego na celu otrzymanie oryginalnych wyników badań.
Wyróżniamy m.in. dane obserwacyjne, eksperymentalne, symulacyjne, kompilacyjne lub referencyjne. Do danych badawczych zaliczymy również wszelkie opisy procedur, dzienniki laboratoryjne czy notatki z eksperymentów.
Otwarte dane badawcze to takie, do których każdy ma nieograniczony dostęp oraz może je dowolnie wykorzystywać, modyfikować i upowszechnić.

Korzyści z szerokiego udostępniania danych badawczych:

  1. Lepsza komunikacja i wymiana informacji pomiędzy specjalistami z różnych dyscyplin
  2. Możliwość przeprowadzenia analiz opartych o unikalne dane, których nie można ponownie zbierać
  3. Wzrost liczby cytowań zarówno samych danych jak i publikacji na nich opartych
  4. Możliwość oceny rzetelności prowadzonych badań
  5. Otwarty dostęp pozwala wykorzystać istniejące zasoby i obniżyć koszty badań

Agencje finansujące badania naukowe często wymagają planu zarządzania danymi (Data Management Plan).

[na podstawie: https://mostwiedzy.pl/infokit/Infokit-pl.pdf, dostęp: 20.06.2024]

Otwarte dane badawcze w polityce i praktyce Narodowego Centrum Nauki – webinarium 2023 r. [2 MB, PDF]

Ogólna zasada dotycząca udostępniania danych badawczych brzmi: Dane powinny być tak otwarte, jak to możliwe i na tyle zamknięte, na ile to jest konieczne. W tym celu sformułowane zasady FAIR.
FAIR to akronim czterech angielskich przymiotników opisujących cechy danych badawczych: findable, accessible, interoperable, reusable.

Zasady FAIR:

  1. Findable – możliwe do odnalezienia
    – zbiór danych opatrzony jest metadanymi, które umożliwiają odnalezienie go przez ludzi i programy komputerowe
    – zbiór ma przypisany  unikalny identyfikator (np. DOI), który stanowi element metadanych, opisujących go
    – metadane są indeksowane w ogólnodostępnych bazach danych z możliwością przeszukiwania
  1. Accessible – dostępne
    – dostęp do zbioru danych lub metadanych możliwy jest bezpośrednio   przez unikalny identyfikator (nie wymaga dodatkowych narzędzi ani oprogramowania)
    – metadane są dostępne zawsze, nawet jeśli sam zbiór danych został już usunięty lub przeniesiony
  1. Interoperable – interoperacyjne
    – forma zapewniająca łatwy odczyt i przetwarzanie
    – zbiory danych i metadane je opisujące zawierają odnośniki do innych, powiązanych z nim zbiorów
  2. Reusable – możliwe do ponownego użycia
    – zbiór danych zawiera licencję określającą jednoznacznie warunki ponownego wykorzystania i przetwarzania danych
    – metadane wyraźnie określają autora oraz miejsce powstania danych
    – metadane są skonstruowane według ogólnie przyjętych standardów, specyficznych dla danej dyscypliny oraz rodzaju danych
    – metadane zawierają liczne atrybuty opisujące zbiór danych i ułatwiające użytkownikom określenie ich przydatności do własnych badań

[na podstawie: https://mostwiedzy.pl/infokit/Infokit-pl.pdf, dostęp: 20.06.2024]

Plan Zarządzania danymi to dokument opisujący czynności wykonywane na każdym etapie pracy z danymi badawczymi. DMP ułatwia planowanie procedur związanych z pozyskiwaniem, przetwarzaniem i dzieleniem się danymi badawczymi.

Plan Zarządzani Danymi powinien zawierać:

  • Ocenę danych już dostępnych, opis braków i potrzeb
  • Opis sposobu gromadzenia danych i ich rodzaju
  • Dokumentację i standardy opisu danych (metadane)
  • Informacje o właścicielu praw autorskich i praw własności intelektualnej danych, a także osobę odpowiedzialną za zarządzanie nimi
  • Wymogi i procedury związane z aspektami etycznymi pozyskiwanych danych
  • Opis procedur zapewniających kontrolę nad jakością danych
  • Określenie na jakiej licencji dane będą dostępne
  • Krótko- i długoterminową strategię przechowywania i ochrony danych
  • Określenie, jakie środki będą potrzebne do przeprowadzenia DMP

Narzędzia wspomagające  tworzenie DMP:

[na podstawie: https://mostwiedzy.pl/infokit/Infokit-pl.pdf, dostęp: 20.06.2024]

  1. Selekcja – nie wszystkie dane muszą zostać udostępnione.
  2. Usunięcie danych wrażliwych, umożliwiających identyfikację badanych osób (anonimizacja, pseudonimizacja).
  3. Wybór formatów plików.
  4. Nadanie odpowiednich nazw folderom oraz plikom.
  5. Opatrzenie zbiorów danych odpowiednim opisem w postaci metadanych.

Jeśli potrzebujesz narzędzia, które pomoże w edycji i czyszczeniu zebranych danych skorzystaj z np. OpenRefine

Narzędzia do anonimizacji danych:

Dane badawcze nie muszą być idealne, mogą np. zawierać luki. Ważne, aby zaznaczyć te braki i opisać z czego wynikały.

[na podstawie: https://mostwiedzy.pl/infokit/Infokit-pl.pdf, dostęp: 20.06.2024]

Metadane to dane o danych, służą do uzyskania dostępu do danych badawczych, ich zrozumienia i ponownego wykorzystania. Wyróżniamy trzy główne typy metadanych: opisowe, strukturalne i administracyjne.

Metadane powinny informować m.in. o strukturze danych, ograniczeniach ich dotyczących (jeśli takie istnieją), o tym co dane oznaczają i w jaki sposób je cytować.

Przykładowe pola metadanych to: dataset name, version, author/s, description, format, licence, founding agency/ies, keywords, DOI, discipline, language.

Występuje wiele standardów metadanych np. ogólne (Dublin Core, Data Cite, Data Documentation Initiative (DDI)), dziedzinowe i instytucjonalne.

Zapisywanie metadanych możliwe jest w pliku txt, arkuszu kalkulacyjnym, pliku XML.

Powstaje wiele inicjatyw mających za zadanie sformalizowanie specyfikacji metadanych w celu łatwego, ponownego ich wykorzystania np.:

[na podstawie: https://mostwiedzy.pl/infokit/Infokit-pl.pdf, dostęp: 20.06.2024]

Strategia przechowywania i archiwizacji oraz ochrony danych powinna być opisana w Planie Zarządzania Danymi. Coraz częściej funkcję archiwów pełnią repozytoria danych badawczych takie jak Most Danych. Dostępnych jest także wiele innych dziedzinowych i instytucjonalnych repozytoriów danych.

W odnalezieniu ich pomaga wyszukiwarka repozytoriów np. RE3DATA

Dobre praktyki archiwizacji danych wymagają stosowania reguły 3-2-1 tj. tworzenia trzech kopii zapasowych, na dwóch odrębnych nośnikach, w tym jednej kopii w innej lokalizacji fizycznej np. inny budynek lub „chmura”.

[na podstawie: https://mostwiedzy.pl/infokit/Infokit-pl.pdf, dostęp: 20.06.2024]

Zgodnie z zasadą „reusable” dane powinny być opatrzone licencją określającą warunki korzystania z danego zbioru danych. Wybór licencji zależy m.in. od polityki naszej Uczelni odnośnie udostępniania danych. Grantodawcy także mogą mieć swoje wymagania odnośnie licencji. Licencje należy określić na etapie tworzenia Planu Zarządzania Danymi.

Przykładem otwartych licencji są licencje Creative Commons (CC). Przy ich stosowaniu należy pamiętać, ze powstały z myślą o utworach, a nie zbiorach danych i dlatego należy upewnić się, czy wybrana licencja pasuje do naszego zbioru.

CC-BY

Uznanie autorstwa Należy oznaczyć autora zbioru danych. Można rozpowszechniać, zmieniać, tworzyć nowe utwory, także komercyjne.
CC-BY-SA Uznanie autorstwa – Na tych samych warunkach Można kopiować, modyfikować i rozpowszechniać dane ale tylko na tej samej licencji

CC-BY-ND

Uznanie autorstwa – Bez utworów zależnych Można wykorzystać w dowolnym celu. Zakaz modyfikacji.
CC-BY-NC Uznanie autorstwa – Użycie niekomercyjne Zakaz użycia w celach komercyjnych. Można kopiować, modyfikować i rozpowszechniać dane.
CC-BY-NC-SA Uznanie autorstwa – Użycie niekomercyjne – Na tych   samych warunkach Zakaz użycia w celach komercyjnych, udostępnianie tylko na tej samej licencji. Można kopiować, modyfikować i rozpowszechniać dane.
CC-BY-NC-ND Uznanie autorstwa- Użycie niekomercyjne – Bez utworów zależnych Zakaz modyfikacji, użycia komercyjnego. Można tylko pobierać i rozpowszechniać.

 

Każdorazowo korzystając z licencji, wykorzystując na ich podstawie dane należy bezwzględnie oznaczyć autora zbioru danych.

[na podstawie: https://mostwiedzy.pl/infokit/Infokit-pl.pdf, dostęp: 20.06.2024]

Jeżeli dataset ma już nadany numer DOI, aby stworzyć jego opis bibliograficzny można skorzystać z generatora cytowań:

Format opisu bibliograficznego zależy przed wszystkim od przyjętego w publikacji stylu cytowań (np. Vancouver, APA, Chicago). Niezależnie od stylu opis powinien zawierać następujące podstawowe informacje: autora, rok, tytuł, miejsce udostępniania (nazwę repozytorium), wersję, identyfikator.

[na podstawie: https://mostwiedzy.pl/infokit/Infokit-pl.pdf, dostęp: 20.06.2024]

DANE BADAWCZE – repozytoria i wyszukiwarki

Dryad

OpenNeuro

RepoOD

Zenodo

Repozytoria danych badawczych NIH National Library of Medicine USA Bethesda

re3data