Child pages
 • kokousmuistiot_tutkimusaineistojen tietomalli
Skip to end of metadata
Go to start of metadata

Minimimetatietomallin laajentaminen "Tutkimusaineistojen tietomalliksi"
(työtehtävä I. Minimimetatietomallin kehittäminen)

Sivulle lisätään lyhyet muistiinpanot työn etenemisestä.

Osallistujat: Miika Alonen, Pinja Koskinen, Suvi Remes & Stina Westman, Jessica Parland - von Essen

Kokous 27.2.2015

Yleistä työskentelystä

 • muistiot ATT-työryhmän sivuille

 • työtapana yksi aamu/iltapäivä ~3h -työpajatapaaminen, kevään ajan tai kuten tarve

   

dokumentoinnin taso ja kielet?

 • kuka on mallinnustyön loppukäyttäjä?
 • kehittäjille?
 • viestintä tutkijoille >> ei varsinaista "tietomalliviestintää", käyttävät malleja työkalujen, ts. katalogien kautta
  •  mitä suurempia vaatimuksia aineistojen kuvailulle asetetaan niin sitä suuremmaksi tulee haaste motivoida tutkijat osaamaan
 • primääristi englanniksi? >> kv-kumppanuudet
 • NRD-sanasto alkuperäisessä mallissa

  • on edelleen mukana, tekninen nimi >> haluttu tarkentaa DCATin teknisiä nimiä (publisher >> distributor; dataset >> siirtoskeemassa)

  • tarvitaan kenttä, jota suositellaan käytettäväksi käyttöliittymässä

  • tarvitaan "pellin alla nimi" ja "pellin yllä nimi" ja molemmat suomeksi ja englanniksi >> malliin nämä kaikki

DCAT?

 • hyödynnetty laajennetussa mallissa
 • profiili dataportaalien väliselle tiedonvaihdolle
 • ei tutkimusaineisto-specifi >> tarvitaan laajennoksia mm. julkaisulinkityksille
 • katalogi-tieto
 • huomioitu SKOS-ontologioiden linkitys
 • manifestaatio >> tiedoston konkreettisen tallennuksen kuvaus
  • manifestaatio: käyttäjä etsii esim. SKOS-muotoista sanastoa

  • kysely on laadullinen tai määrällinen

   • voidaanko tyypitellä?

   • tässä vaiheessa tiedostonmuoto ei välttämättä ei ehkä oleellinen

 • ei määrittele rajapintaa, vaan tietosisällön
 • DCAT tukisi sitten Etsin - Avoin data -linkitystä

 Viittaustiedot?

 • aineisto riippuu
 • aineistoa hyödyntävä julkaisu
 • aineistoon on viitattu
 • aineiston dataset-relaatiot pitää miettiä
 • osa julkaisusta kuvailee aineiston
 • versioidaan aineisto
 • datacite voisi toimia tässä
  • puuttuu referencing
  • datacite: relation type >> on geneerinen >> vaatii vain relaation kertomisen
 • aineisto-aineisto-suhteita
 • aineisto-muu-suhteita
 • julkaisu >> miten määritellään?
  • nykyinen ehkä liian tiukka >> "julkaisu perustuu aineistoon"
 • geneerisyyden taso?
  • geneeriset käsitteet (viittaus), tarkennetaan sanastotasolla relaatio?
  • ei saa olla myöskään liian epämääräinen ja tulkinnanvarainen

määritelmät eivät täsmää eri mallien välillä; määritelmiä täytyy muokata (esim. aineiston jatkumotunnite >> on kuitenkin käytönnössä yksilöllinen)

 

 • lähestymisnäkökulmia:
  • käsittely luokitusten mukaan >> dataset theme
   • asiasana tai luokitus >> geneerinen (tieteenalaluokitus) ja tarkempia, vrt. ANSI
   • kun korkeakoulut alkavat kerätä tietoja tutkimusaineistoista tutkimustietojärjestelmään, pitää selvittää mitä luokitusta käyttävät
   • nyt käytetään geneerisintä tasoa OECD:n luokituksesta
   • olisi mahdollista laajentaa, "suomalaisena profiilina"?
   • SKOS? >> Etsimen tulisi osata käyttää SKOSia >> tutkimusalakohtaisuudet otetaan huomioon profiilissa (esim. FSD >> tieteenalaluokitus)
  • käsittely roolien mukaan
  • käsittely käyttöehtojen mukaan >> on tulossa käsittelyyn todennäköisesti myöhemmin
  • käsittely "miten nykyiset laajennokset menevät Etsimen metatietomalliin"
   • palvelun help-sivuilla on tietomallin kuvaus
   • API
   • esim. mäppäykset Dubliin Coreen näkyville sivuston malliin
   • katalogi-taso tuo yhden hiearkkian lisää >> pitäisi myös linkittää >> näkyy mistä katalogista aineistot alunperin tulleet
   • URN-lisäksi näyttää myös lähteen
   • Etsimen tietomallin vertailu taulukon tietoon >> ASAP, tehdään ennen seuraavaa kokousta
  • käsittelyyn tietoaineiston elinkaari >> tapahtumat
   • liittyy myös kokoelma-kysymykseen
   • tietoaineiston määritelmä?
   • miten aineisto elää? suositukset?
   • "yhdeltä toimijalta" >> määritelmää muokattava, esim. DCAT ei ota kantaa, että juuri yhdeltä toimijalta
   • metatietotietue?
    • ovat Etsimessä olemassa >> tarvitaan palvelun pyörittämiseen, esim. logitiedot

Kokous 16.3.2015

 • joitakin määritelmiä taulukossa korjattu vastaamaan minimimetatietomallin määritelmiä
 • täydennetty teknisiä tietoja (uusi sarake "Etsin")

 • tutkimusaineistokatalogi-osio
  • mitä tapahtuu, jos kv-referenssi haravoi Etsintä >> miten aineistot näkyvät siellä?
  • Onko lähde Etsin vai todelliset Commnunityt?
  • teknisesti ovat group, osittain samanlaiset kuin "organisaatio" >> voisivat olla rinnakkain
  • organisaatioilla hallitaan oikeuksia, group on vain yhteenliittymä
  • B2Find >> verkosto rakentuu datakeskuksista, jotka tuottavat dataa >> kuvaa yhteistyöverkostoa enemmän kuin aineistoja
  • Etsimessä on haluttu näyttää mistä se on lähtöisin, ei missä yhteydessä data on relevanttia
  • sekä tuottaja että yhteisö, josta aineisto ladattavissa, saatava näkyviin?
  • organisaatilla ei välttämättä ole suoraa suhdetta aineistoon; aineisto voi näkyä jakelijan takaa
  • aineisto voi nyt kuulua vain yhteen organisaatioon
  • distributor pitäisi olla rakenteistettu >> olisi "Community"?
  • tarvitaanko lisäksi tyypittely >> kyllä
  • yksinkertaisin ratkaisu voisi olla, että lisätään yksi bitti, joka kertoo onko kyseessä arkisto/x/x >> ei välttämättä yksittäisen tutkijan tekemiä lisäyksiä mukaan
  • B2Find >> "origin"? >> vapaatekstikenttä? >> yhdistetty eri metamallien kenttiä yhteen?
  • organisaatioiden näkyminen Etsimessä >> osa sopimuksenvaraisia tietoja (kuka on jakelija, omistaja jne.)
  • organisaatio-kuvio täytyy miettiä >> hallintamielessä aineiston alkuperä kiperä
  • organisaatioiden historiatieto haasteellinen
  • miten hallitaan tietomallien muutosta?

 • Etsimen nykyinen rajapinta
  • miten tietomalli näkyy siinä?
  • Help >> FAQ >> API esittää tiedot >> Display data model
  • voisiko olla pop up -ikkuna, helpottaisi esittämistä (windows-kone)
  • esimerkki "miten selaat APIA" olisi hyvä; nyt ID:llä esiin metatiedot
  • CKANin tietomalli hyvin suppea >> jokainen lisää omiaan; tieteenaloistakin eri luokittelut
 • DCAT
  • kuvailee lisenssit rakenteistetusti
  • haravoinneissa tarvittaneen vähän käsityötä lisenssien suhteen?
  • lisätään exceliin "lisentti" ja "oikeudet" tutkimusaineistokatalogille
 • mikä on tutkimiusaineiston määritelmä?
  •     aineistojen substanssi määritelmä, jossä näkyisi tutkimus eikä vain data?
  • tutkimusaineisto >> ensisijaisesti alunperin tutkimuskäyttöön kerätty sähköinen tietoaineisto?
  • Etsimeen voi kuvailla tutkimukseen käytettyjä aineistoja, mutta olisi primaaristi tutkimuskäyttöön kerätyille aineistoille?
  • aineiston määritelmä? >> TUHA-sanastoryhmän asialistalle
  • tutkimusryhmällä on tutkimusaineistoja ja muita aineistoja ("muuta dataa")
 • tyypittely aineistoille ja tyypittely aineistojen manifestaatioille
  • tulee jo tiedostoformaatti
  • entä paikkatiedon koordinaatisto?
 • lisenssi >> mistä asti on voimassa >> rights statement >> täytyy määritellä rakenne
 • malliviittaus
  • Etsimen tiedoista pitäisi generoida?
  • lisättiin malliin
  •  jos fasetti on dynaaminen, miten sitä pitäisi käsittellä?
  • esimerkkiviittauksissa voidaan kuvata/ohjeistaa
 • tunnisteet
  • sen lisäksi, että kerätään ne, niin kerrotaan mistä joukosta ne ovat ja tyyppi
  • ottaako rakennettava malli kantaa tunnisteen olemukseen? Olisi tarve myös tyypille, määrämuotoisena.
  • Mikä on Etsimen tunniste?
   • esim. FIN-Clarin ja Kielipankki sama toimija

  • Pitäisi määritellä mitkä kaikki tunnisteet halutaan?
  • Nyt aineiston tunnite pysyy samana kaikille versioilla
  • CKANissa vain tietty tila >> "extrat" tulee olemaan vaikeaa; omia tauluja ei suositella CKANiin
 • keskusteltiin jälleen viittaussuhteista >> lisätään taulukkoon
  •     mietitty viittausten toteuttamista eri tyyppisiin aineistoihin >> luokitus, joka määrittelisi tarkemmin suhteen
  •     liittyy myös keskusteluun datan tyypistä
  •     related identifier? >> kaksi resurssia >> toinen, jota kuvaillaan ja toinen jokin muu
  •      related identifier type
  •     tutkijat pyytää "mikä artikkeli viittaa tähän aineistoon" >> otetaan jo nyt huomioon muut vastaavat käyttötapaukset
  •     käydään luokitus työryhmässä läpi (DataCite)?
 •  selitteiden laatiminen puuttuville?
  • suurelta osin löytyy DCATista >> suomennokset
  • tapahtumat >> DCMI? >> laajennetussa metatietomalli mukana>> miksi olleet työlistalla ennen muita kriittisempiä? (Stina: pilotoivilla tutkimusryhmillä oli tällaista metatietoa)
  • on Etsimessä, mutta ei DCATissa
 • laajennetusta metatietomallista ei vielä kaikki osat google docissa >> tehdään tuplatsekkaus (Miika)

 • biopankit
  • formaatti (MIABIS) vaatii mm. iän kuvaamista tietyllä tavalla
  • tieteenalakohtainen laajennus -esimerkki >> käyttölogiikka "Etsin kysee minkä alan tutkija olet?" >> eri pakolliset kentät/profiilit
  • vrt. B2Share logiikka >> useita eri malleja, joiden mukaan voi kuvailla

Kokous 2.4.

 • tutkitaan eudatin tieteenalakohtaisia metatietoja
  • tieteenalaluokittelu >> lähde wikipedia?
   >> ei mäpätä tähän; pitäisi olla oecd
  • tietoisia fintosta ja oecd:n luokituksista
 • miten saadaan tieteenalakohtaiset metatiedot?
  • selvitys? >> kierrokselle tahoille
  • mitä on käytetty, kun ne on määritelty
 • metadata store >> reference >> valmis toteutus "purkista", jota mietitty; dataciteen pohjautuu
 • Etsimeen on pedattu paikka (käyttyliittymä mielessä) >> odottaa sisältöä
 • tarvitaan vielä taustakoneisto, joka osaa laajentaa skeemaa
 • sisällöt >> tietomallityöryhmän tehtävä
  • tehdään rinnan yleistä ja spefisiä >> pitää tarkastella overlap >> tieteenalakohtaiset kentät laajentavat geneeristä
  • laaditaan hallintamalli uusien kenttien lisäämiselle
  • aloitustilanteessa tarvitaan mahdollisimman kypsä yleinen malli, ja muutamia tieteenalakohtaisia
  • käydään lävitse muutama keskeinen: arvio kuinka paljon eri kenttiä? eroaako skooppi yleisestä mallista? onko ristiriitoja? (8.7. Jessican tehtäväksi sillä ei ole vielä tehty)
   • biopankit (lääketiede) >> MIABIS
   • ympäristötieteet >> INSPIRE
   • CLARIN
   • DDI
   • biodiversiteetti >> GEMINI, NBN, ISO 191115
   • ELIXIR?
 • aineistokohtaiset metatiedot?
  • rekisteritiedon metatiedot? >> muuttujatiedoista
  • rajaako ulos luonnontieteellisen havaintodatan?
  • Suvi kysyy marilta lisätietoja ja materiaalit

 

Kokous 6.7. ja 9.7.

 

 • No labels