Kako delati s navadnim besedilom


Privzeto kodiranje

Datoteke z navadnim besedilom - v večini primerov pripono .txt - vsebujejo izključno samo informacijo v obliki besedila. Za datoteke z navadnim besedilom ni jasnega in enoličnega dogovora, kako računalniku sporočiti jezik, v katerem je besedilo sestavljeno. Zelo poenostavljeno lahko rečemo, da računalnik za te datoteke privzame, da je njih vsebina napisana v jeziku, ki ga on sam, računalnik, uporablja.


Zaslon je videti zmešan?

Ruski uporabnik računalnika bo zelo verjetno delal z računalnikom, ki ravno tako dela v ruščini. V večini primerov bo zato računalnik po pravici lahko privzel, da bodo datoteke vsebovale samo znake ruske cirilice.

Če pa se kot ruski prevajalec ukvarjate s prevajanjem iz japonščine, bo računalnik tudi zanje, v kolikor imajo format za običajna besedila, privzel, da gre za besedila v ruščini. V datoteki namreč ni podatkov, na osnovi katerih bi lahko računalnik sklepal na uporabljeni jezik.

Vsebina v japonščini bi lahko bila:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Vendar jo bo vaš urejevalnik prikazal takole:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB

Pričakuje pač, da gre za besedilo v ruščini. Vendar zgornji stavek vsekakor ni v ruščini. Gre za japonske znake, ki se jih napačno interpretira kot znake cirilice.

Tudi z OmegaT ni nič drugače. OmegaT sklepa, da datoteke tipa običajno besedilo vsebujejo tekste, ki se jih prikazuje z privzeto nastavitvijo računalnika. Če računalnik govori francosko in datoteke vsebujejo angleško besedilo, ni težav, ravno tako tudi ne, če gre za slovenski računalnik in na primer češčino.


Nabori znakov in kodiranje

Kako da to gre za angleščino in francoščino, za ruščino in za japonščino pa ne? Vzrok je skupni nabor znakov za francoski in angleški jezik. Namreč Latin-1, ali ena od njegovih variant - recimo Latin-2 za slovenščino in češčino. Do nedavna ruščina in japonščina nista imela skupnega nabora znakov. Večina ruskih naborov znakov zato ne pozna japonskih znakov in obratno. Posledice ste imeli priložnost videti zgoraj.

Japonska stranka dela na japonskem računalniku in piše besedila v japonščini. Kateri nabor znakov bo pri tem uporabljen, je odvisno od operacijskega sistema in drugih nastavitev, vendar je zelo neverjetno da bi izbrani (japonski) nabor znakov ruski računalnik lahko pravilno interpretiral.

Kako pa se tekstualna informacija na osnovi zahtevanega nabora znakov fizično posreduje (to je, kako se zapisuje v datoteko, da jo računalnik lahko prebere in interpretira) , je odvisno od kodiranja. Ko računalnik datoteko bere, "dekodira" v skladu z kodiranjem informacijo v njej in jo potem v skladu z naborom znakov prikazuje. Poenostavljeno lahko rečemo, da določeno kodiranje odgovarja določenemu naboru znakov.


Rešitev v OmegaT

V bistvu so na razpolago tri možnosti, da se v OmegaT ta problem reši. Vse tri metode uporabljajo datotečne filtre v meniju .Možnosti

  1. Navedite kodiranje za svoje datoteke z običajnim besedilom - to je datoteke s pripono .txt
    V odseku besedilne datoteke dvogovora datotečni filtri spremenite Kodiranje izvornih datotek z <avto> na kodiranje vaših datotek vrste .txt.
  2. Spremenite pripone svojih datotek za enostavna besedila - na primer iz .txt v .jp za navadna besedila v japonščini.
    V odseku besedilne datoteke dvogovora datotečni filtri dodajte *.jp v Vzorec za imena datotek in potem za izvorne in ciljne datoteke s to pripono izberite ustrezno kodiranje.
  3. Odprite svojo izvorno datoteko v urejevalniku, ki pravilno razume njeno kodo in datoteko shranite s kodiranjem "UTF-8".
    Spremenite ji ime iz karkoli.txt v karkoli.utf8.
    OmegaT bo datoteko odslej razumel kot datoteko vrste UTF-8.

Trenutno podpira OmegaT naslednje vrste besedilnih datotek

Nastavitev lahko preverite tudi sami, če izberete Filtri za datoteke v meniju Možnosti.

Gre samo za pripomoček, s katerim vam OmegaT olajša delo z nekaterimi datekami z navadnim besedilom.

Če imate na primer pred sabo datoteko v češčini (zewlo verjetno zapisano v kodi ISO-8859-2) , vam ni treba drugega kot spremeniti pripono iz .txt v .txt2 in OMegaT bo vsebino datoteke predstavil pravilno


Pravni poduk