Skip to end of metadata
Go to start of metadata

Ilmenneet kysymykset ja vastaukset ym. havainnot toteutuksessa

Ohjeet korkeakouluille

Julkaisutiedonkeruun osalta tiedoston merkistökoodaus tarkistetaan tiedonkeruun yhteydessä ja muulla kuin UTF-8 -merkistökoodauksella toimitetut tiedostot hylätään. Valitettavasti Microsoft Excel -työkirjan tallentaminen vaaditussa merkistökoodauksessa ei onnistu suoraan Excel-ohjelmasta käsin. 

Kysymykset ja vastaukset

Kysymys: Julkaisuraportin latauksessa tulee tällainen virheilmoitus: "Rivi 1 : Tiedoston sisällön tarkistus epäonnistui. Ota tarvittaessa yhteyttä OKM:ään."

Vastaus: Ongelma johtui siitä, että yhdellä rivillä julkaisun tekijöiden lukumäärä oli 2,1989. Kokonaislukukentissä olevat desimaaliluvut voivat siis aiheuttaa ko. virheilmoituksen.

 

Kysymys: Julkaisuraportin latauksessa herjaa utf-8 merkistö-ongelmaa vaikka merkistö on muutettu.

Vastaus: Ongelma voi olla automaattisessa erikoismerkkien muutoksessa. Muutoksessa voi syntyä tyhjiä kontrollimerkkejä joidenkin erikoismerkkien kanssa. Etsi notepad++ ohjelmalla tyhjiä kontrollimerkkejä (näkyvät editorissa mustalla pohjalla "stx"). Muuta merkki manuaalisesti UTF-8 muotoon (Lista merkeistä: http://www.fileformat.info/info/charset/UTF-8/list.htm). Esimerkki ongelmallisesta merkistä ANSI->UTF muunnoksessa: http://www.fileformat.info/info/unicode/char/02510/index.htm.

 

  • No labels

11 Comments

  1. Anonymous

    Tässä ohjeessa https://confluence.csc.fi/download/attachments/21072701/Julkaisutiedonkeruuohje.pdf neuvotaan avaamaan tiedosto Calciin File-valikon Open-toiminnolla. Yritin tätä, mutta voisitteko tarkentaa, mitkä ovat esim. Separator options. Fixed width ei käy, mutta kohdassa Separated with en keksi sopivia sääntöjä, jotta sarakkeet pysyisivät samassa muodossa kuin alkuperäisessä tiedostossa.

    1. Anonymous

      Näillä asetuksilla näyttäisi avautuvan oikein:

      Character set: Western Europe (Windows-1252/WinLatin1).

      Separated by: semicolon.

      Mielenkiintoista nähdä, mitä tapahtuu tallennuksen jälkeen...

      1. Anonymous

        Calcia voin suositella lämpimästi kaikille Excelin tilalle! Tiedosto näyttää nyt hyvältä.

  2. Anonymous

    Voiko CSV-tiedoston soluihin kopioida Excel-taulukosta kopioituja tietoja ilman, että merkistö menee sekaisin?

  3. Oletko siirtämässä Windows-työasemalla Excelistä kopioituja rivejä Calciin (Windowsin leikepöydän kautta)? Pikaisen testin perusteella näyttää, että Windows-leikepöyd'n lautta Excelistä Calciin kopioidut rivit säilyttävät erikoismerkit oikein. Mikäli merkit ovat kunnossa Calcissa, niin Calc osaa ne tallettaa oikein UTF-8 muodossa.

  4. Anonymous

    Pitääkö aksentilliset merkit (esim. á) kopioida Calcin Special Charactereista vai voiko merkit tehdä näppäimistön merkeillä?

  5. Ei ole merkitystä onko merkki tuotettu näppäimistöltä vai Calcin Special Charactereista kunhan merkki on sama. Eurooppalaisissa kielissä tavallisten aksenttimerkkien à, á, û, ü jne. kohdalla ei ole suurta riskiä, että samalta näyttävät merkit aiheuttaisivat sekaannusta. Sen sijaan Suomen kontekstissa harvinaisempien merkkien kuten liettualaisten tarkkeiden, kreikkalaisten, kyrillisten ja aasialaisten kielten kirjoitusmerkkien kohdalla on kieltä tuntemattoman riskinä syöttää Calcin Special Characterin kautta samalta näyttävä, mutta virheellien merkki.

  6. Anonymous

    Jos tekijät laitetaan siinä muodossa kuin ne ovat julkaisussa, niin nimiä ei tarvitse laittaa muodossa Sukunimi, Etunimi. Onko näin?

     

     

    1. Julkaisun tekijät -kenttään merkitään ohjeistuksen mukaisesti tiedot siinä muodossa ja järjestyksessä, jossa ne on listattu alkuperäisessä julkaisussa tai lähdetietokannassa. Organisaation tekijät -kenttään tiedot merkitään ensisijaisesti muodossa "von Hummel, Essi; Möttönen, Matti". Organisaation tekijät tietoja jatkojalostetaan esim. Juulissa, josta syystä niiden em. mukainen kirjoitusasu on toivottava.

  7. Anonymous

    Toisessa ohjeessa kehotetaan laittamaan puolipisteitä sisältäviin kenttiin lainausmerkit, toisessa kielletään laittamasta lainausmerkkejä. Kumpi on oikein?

    1. Puolipiste on CSV-formaatin erotinmerkki, jota tiedostoa käsittelevä tietokoneohjelma käyttää jakaessaan tiedoston sarakkeiksi ja riveiksi. Kuitenkin julkaisutiedonkeruun kentät voivat sisältää puolipisteitä, esim. julkaisujen nimissä. Yleisimmät julkaisutiedonkeruun käsittelyyn suositellut ohjelmat (esim. Calc-ohjelma) kuitenkin huolehtivat lainausmerkkien lisäämisestä automaattisesti puolipisteitä sisältäviin tekstikenttiin, joten yleisesti ottaen lainausmerkkejä ei pidä lisätä käsin kenttiin.