Skip to end of metadata
Go to start of metadata

Minimimetatietomallin laajentaminen "Tutkimusaineistojen tietomalliksi"
(työtehtävä I. Minimimetatietomallin kehittäminen)

Sivulle lisätään lyhyet muistiinpanot työn etenemisestä.

Osallistujat: Miika Alonen, Pinja Koskinen, Suvi Remes & Stina Westman, Jessica Parland - von Essen

Kokous 27.2.2015

Yleistä työskentelystä

  • muistiot ATT-työryhmän sivuille

  • työtapana yksi aamu/iltapäivä ~3h -työpajatapaaminen, kevään ajan tai kuten tarve

     

dokumentoinnin taso ja kielet?

  • kuka on mallinnustyön loppukäyttäjä?
  • kehittäjille?
  • viestintä tutkijoille >> ei varsinaista "tietomalliviestintää", käyttävät malleja työkalujen, ts. katalogien kautta
    •  mitä suurempia vaatimuksia aineistojen kuvailulle asetetaan niin sitä suuremmaksi tulee haaste motivoida tutkijat osaamaan
  • primääristi englanniksi? >> kv-kumppanuudet
  • NRD-sanasto alkuperäisessä mallissa

    • on edelleen mukana, tekninen nimi >> haluttu tarkentaa DCATin teknisiä nimiä (publisher >> distributor; dataset >> siirtoskeemassa)

    • tarvitaan kenttä, jota suositellaan käytettäväksi käyttöliittymässä

    • tarvitaan "pellin alla nimi" ja "pellin yllä nimi" ja molemmat suomeksi ja englanniksi >> malliin nämä kaikki

DCAT?

  • hyödynnetty laajennetussa mallissa
  • profiili dataportaalien väliselle tiedonvaihdolle
  • ei tutkimusaineisto-specifi >> tarvitaan laajennoksia mm. julkaisulinkityksille
  • katalogi-tieto
  • huomioitu SKOS-ontologioiden linkitys
  • manifestaatio >> tiedoston konkreettisen tallennuksen kuvaus
    • manifestaatio: käyttäjä etsii esim. SKOS-muotoista sanastoa

    • kysely on laadullinen tai määrällinen

      • voidaanko tyypitellä?

      • tässä vaiheessa tiedostonmuoto ei välttämättä ei ehkä oleellinen

  • ei määrittele rajapintaa, vaan tietosisällön
  • DCAT tukisi sitten Etsin - Avoin data -linkitystä

 Viittaustiedot?

  • aineisto riippuu
  • aineistoa hyödyntävä julkaisu
  • aineistoon on viitattu
  • aineiston dataset-relaatiot pitää miettiä
  • osa julkaisusta kuvailee aineiston
  • versioidaan aineisto
  • datacite voisi toimia tässä
    • puuttuu referencing
    • datacite: relation type >> on geneerinen >> vaatii vain relaation kertomisen
  • aineisto-aineisto-suhteita
  • aineisto-muu-suhteita
  • julkaisu >> miten määritellään?
    • nykyinen ehkä liian tiukka >> "julkaisu perustuu aineistoon"
  • geneerisyyden taso?
    • geneeriset käsitteet (viittaus), tarkennetaan sanastotasolla relaatio?
    • ei saa olla myöskään liian epämääräinen ja tulkinnanvarainen

määritelmät eivät täsmää eri mallien välillä; määritelmiä täytyy muokata (esim. aineiston jatkumotunnite >> on kuitenkin käytönnössä yksilöllinen)

 

  • lähestymisnäkökulmia:
    • käsittely luokitusten mukaan >> dataset theme
      • asiasana tai luokitus >> geneerinen (tieteenalaluokitus) ja tarkempia, vrt. ANSI
      • kun korkeakoulut alkavat kerätä tietoja tutkimusaineistoista tutkimustietojärjestelmään, pitää selvittää mitä luokitusta käyttävät
      • nyt käytetään geneerisintä tasoa OECD:n luokituksesta
      • olisi mahdollista laajentaa, "suomalaisena profiilina"?
      • SKOS? >> Etsimen tulisi osata käyttää SKOSia >> tutkimusalakohtaisuudet otetaan huomioon profiilissa (esim. FSD >> tieteenalaluokitus)
    • käsittely roolien mukaan
    • käsittely käyttöehtojen mukaan >> on tulossa käsittelyyn todennäköisesti myöhemmin
    • käsittely "miten nykyiset laajennokset menevät Etsimen metatietomalliin"
      • palvelun help-sivuilla on tietomallin kuvaus
      • API
      • esim. mäppäykset Dubliin Coreen näkyville sivuston malliin
      • katalogi-taso tuo yhden hiearkkian lisää >> pitäisi myös linkittää >> näkyy mistä katalogista aineistot alunperin tulleet
      • URN-lisäksi näyttää myös lähteen
      • Etsimen tietomallin vertailu taulukon tietoon >> ASAP, tehdään ennen seuraavaa kokousta
    • käsittelyyn tietoaineiston elinkaari >> tapahtumat
      • liittyy myös kokoelma-kysymykseen
      • tietoaineiston määritelmä?
      • miten aineisto elää? suositukset?
      • "yhdeltä toimijalta" >> määritelmää muokattava, esim. DCAT ei ota kantaa, että juuri yhdeltä toimijalta
      • metatietotietue?
        • ovat Etsimessä olemassa >> tarvitaan palvelun pyörittämiseen, esim. logitiedot

Kokous 16.3.2015

  • joitakin määritelmiä taulukossa korjattu vastaamaan minimimetatietomallin määritelmiä
  • täydennetty teknisiä tietoja (uusi sarake "Etsin")

  • tutkimusaineistokatalogi-osio
    • mitä tapahtuu, jos kv-referenssi haravoi Etsintä >> miten aineistot näkyvät siellä?
    • Onko lähde Etsin vai todelliset Commnunityt?
    • teknisesti ovat group, osittain samanlaiset kuin "organisaatio" >> voisivat olla rinnakkain
    • organisaatioilla hallitaan oikeuksia, group on vain yhteenliittymä
    • B2Find >> verkosto rakentuu datakeskuksista, jotka tuottavat dataa >> kuvaa yhteistyöverkostoa enemmän kuin aineistoja
    • Etsimessä on haluttu näyttää mistä se on lähtöisin, ei missä yhteydessä data on relevanttia
    • sekä tuottaja että yhteisö, josta aineisto ladattavissa, saatava näkyviin?
    • organisaatilla ei välttämättä ole suoraa suhdetta aineistoon; aineisto voi näkyä jakelijan takaa
    • aineisto voi nyt kuulua vain yhteen organisaatioon
    • distributor pitäisi olla rakenteistettu >> olisi "Community"?
    • tarvitaanko lisäksi tyypittely >> kyllä
    • yksinkertaisin ratkaisu voisi olla, että lisätään yksi bitti, joka kertoo onko kyseessä arkisto/x/x >> ei välttämättä yksittäisen tutkijan tekemiä lisäyksiä mukaan
    • B2Find >> "origin"? >> vapaatekstikenttä? >> yhdistetty eri metamallien kenttiä yhteen?
    • organisaatioiden näkyminen Etsimessä >> osa sopimuksenvaraisia tietoja (kuka on jakelija, omistaja jne.)
    • organisaatio-kuvio täytyy miettiä >> hallintamielessä aineiston alkuperä kiperä
    • organisaatioiden historiatieto haasteellinen
    • miten hallitaan tietomallien muutosta?

  • Etsimen nykyinen rajapinta
    • miten tietomalli näkyy siinä?
    • Help >> FAQ >> API esittää tiedot >> Display data model
    • voisiko olla pop up -ikkuna, helpottaisi esittämistä (windows-kone)
    • esimerkki "miten selaat APIA" olisi hyvä; nyt ID:llä esiin metatiedot
    • CKANin tietomalli hyvin suppea >> jokainen lisää omiaan; tieteenaloistakin eri luokittelut
  • DCAT
    • kuvailee lisenssit rakenteistetusti
    • haravoinneissa tarvittaneen vähän käsityötä lisenssien suhteen?
    • lisätään exceliin "lisentti" ja "oikeudet" tutkimusaineistokatalogille
  • mikä on tutkimiusaineiston määritelmä?
    •     aineistojen substanssi määritelmä, jossä näkyisi tutkimus eikä vain data?
    • tutkimusaineisto >> ensisijaisesti alunperin tutkimuskäyttöön kerätty sähköinen tietoaineisto?
    • Etsimeen voi kuvailla tutkimukseen käytettyjä aineistoja, mutta olisi primaaristi tutkimuskäyttöön kerätyille aineistoille?
    • aineiston määritelmä? >> TUHA-sanastoryhmän asialistalle
    • tutkimusryhmällä on tutkimusaineistoja ja muita aineistoja ("muuta dataa")
  • tyypittely aineistoille ja tyypittely aineistojen manifestaatioille
    • tulee jo tiedostoformaatti
    • entä paikkatiedon koordinaatisto?
  • lisenssi >> mistä asti on voimassa >> rights statement >> täytyy määritellä rakenne
  • malliviittaus
    • Etsimen tiedoista pitäisi generoida?
    • lisättiin malliin
    •  jos fasetti on dynaaminen, miten sitä pitäisi käsittellä?
    • esimerkkiviittauksissa voidaan kuvata/ohjeistaa
  • tunnisteet
    • sen lisäksi, että kerätään ne, niin kerrotaan mistä joukosta ne ovat ja tyyppi
    • ottaako rakennettava malli kantaa tunnisteen olemukseen? Olisi tarve myös tyypille, määrämuotoisena.
    • Mikä on Etsimen tunniste?
      • esim. FIN-Clarin ja Kielipankki sama toimija

    • Pitäisi määritellä mitkä kaikki tunnisteet halutaan?
    • Nyt aineiston tunnite pysyy samana kaikille versioilla
    • CKANissa vain tietty tila >> "extrat" tulee olemaan vaikeaa; omia tauluja ei suositella CKANiin
  • keskusteltiin jälleen viittaussuhteista >> lisätään taulukkoon
    •     mietitty viittausten toteuttamista eri tyyppisiin aineistoihin >> luokitus, joka määrittelisi tarkemmin suhteen
    •     liittyy myös keskusteluun datan tyypistä
    •     related identifier? >> kaksi resurssia >> toinen, jota kuvaillaan ja toinen jokin muu
    •      related identifier type
    •     tutkijat pyytää "mikä artikkeli viittaa tähän aineistoon" >> otetaan jo nyt huomioon muut vastaavat käyttötapaukset
    •     käydään luokitus työryhmässä läpi (DataCite)?
  •  selitteiden laatiminen puuttuville?
    • suurelta osin löytyy DCATista >> suomennokset
    • tapahtumat >> DCMI? >> laajennetussa metatietomalli mukana>> miksi olleet työlistalla ennen muita kriittisempiä? (Stina: pilotoivilla tutkimusryhmillä oli tällaista metatietoa)
    • on Etsimessä, mutta ei DCATissa
  • laajennetusta metatietomallista ei vielä kaikki osat google docissa >> tehdään tuplatsekkaus (Miika)

  • biopankit
    • formaatti (MIABIS) vaatii mm. iän kuvaamista tietyllä tavalla
    • tieteenalakohtainen laajennus -esimerkki >> käyttölogiikka "Etsin kysee minkä alan tutkija olet?" >> eri pakolliset kentät/profiilit
    • vrt. B2Share logiikka >> useita eri malleja, joiden mukaan voi kuvailla

Kokous 2.4.

  • tutkitaan eudatin tieteenalakohtaisia metatietoja
    • tieteenalaluokittelu >> lähde wikipedia?
      >> ei mäpätä tähän; pitäisi olla oecd
    • tietoisia fintosta ja oecd:n luokituksista
  • miten saadaan tieteenalakohtaiset metatiedot?
    • selvitys? >> kierrokselle tahoille
    • mitä on käytetty, kun ne on määritelty
  • metadata store >> reference >> valmis toteutus "purkista", jota mietitty; dataciteen pohjautuu
  • Etsimeen on pedattu paikka (käyttyliittymä mielessä) >> odottaa sisältöä
  • tarvitaan vielä taustakoneisto, joka osaa laajentaa skeemaa
  • sisällöt >> tietomallityöryhmän tehtävä
    • tehdään rinnan yleistä ja spefisiä >> pitää tarkastella overlap >> tieteenalakohtaiset kentät laajentavat geneeristä
    • laaditaan hallintamalli uusien kenttien lisäämiselle
    • aloitustilanteessa tarvitaan mahdollisimman kypsä yleinen malli, ja muutamia tieteenalakohtaisia
    • käydään lävitse muutama keskeinen: arvio kuinka paljon eri kenttiä? eroaako skooppi yleisestä mallista? onko ristiriitoja? (8.7. Jessican tehtäväksi sillä ei ole vielä tehty)
      • biopankit (lääketiede) >> MIABIS
      • ympäristötieteet >> INSPIRE
      • CLARIN
      • DDI
      • biodiversiteetti >> GEMINI, NBN, ISO 191115
      • ELIXIR?
  • aineistokohtaiset metatiedot?
    • rekisteritiedon metatiedot? >> muuttujatiedoista
    • rajaako ulos luonnontieteellisen havaintodatan?
    • Suvi kysyy marilta lisätietoja ja materiaalit

 

Kokous 6.7. ja 9.7.

 

  • No labels