Caractères et codes

Szövege furcsa karaktereket tartalmaz? Nem találja a szavakat?
Mindannyian találkoztunk már azzal a jelenséggel, hogy a számítógép értelmes szöveg helyett "hieroglifákat", helytelen betűket vagy egyenesen értelmezhetetlen karaktersorokat jelenít meg a böngészőben, az e-mailjeinkben vagy a szövegszerkesztőnkben. Ez bármilyen szoftver használata közben előfordulhat, és nemcsak a megértést zavarhatja, hanem megakadályozhatja a szoftver normális működését is. A keresés és/vagy csere parancsot például nem tudjuk futtatni, ha a szövegünkben ilyen hibák vannak, és a nyelvészeti szoftvereink (például a konkordancia-programunk) sem lesznek képesek megfelelő eredményt produkálni. Ez az oldal a jelenség megértésében segít, és megoldást is kínál egyes esetekre.

Írásrendszerek
A több nyelvű üzenetek és elemek olyan nyelvű szöveget tartalmazhatnak, melyek különböző írásrendszereket igényelnek. Egyetlen írásrendszer használatával számos nyelv jeleníthető meg.

A latin vagy római írásrendszer például rendelkezik karakterformákkal – jelekkel – az angol ábécé 26 betűje számára (kis- és nagybetűkre egyaránt), de ékezetes (bővített) karaktereket is tartalmaz az egyéb nyugat-európai nyelvek hangjai számára.

A latin írásrendszer rendelkezik a legtöbb európai – és néhány egyéb – nyelvben előforduló összes karakter megjelenítéséhez szükséges jellel. Más európai nyelvek esetében – mint a görög vagy az orosz – vannak olyan karakterek, melyekhez nincsenek jelek a latin írásrendszerben; ezek a nyelvek saját írásrendszerrel rendelkeznek.

Néhány ázsiai nyelv ideografikus írásrendszert használ, melynek jelei a kínai karaktereken alapulnak. Más nyelvek, mint a thai és az arab, olyan írásrendszert használnak, melynek jelei számos kisebb jelből tevődnek össze, illetve olyan jelekből, melyek másképp alakulnak a szomszédos karakterektől függően.

Az egyszerű szöveg tárolásának gyakori módja, hogy minden egyes karaktert egy bájt képvisel. Minden egyes bájt értéke egy numerikus index – vagy kódpont – egy karaktertáblázatban; egy kódpont egy karakternek felel meg a számítógép alapértelmezett kódlapján, melyen a szöveges dokumentumot létrehozzuk. A 189 decimális bájtérték (a 189 decimális érték kódpontja) például különböző kódlapokon különböző karaktereket jelenít meg.

Kódlapok
A karakterek csoportosított táblázatát kódlapnak nevezzük. Az egybájtos kódlapoknál minden kódlap legfeljebb 256 bájtnyi értéket tartalmaz; mivel a kódlap minden egyes karakterét egyetlen bájt képviseli, egy kódlap összesen 256 karaktert tartalmazhat.

Egyetlen kódlap a 256 karakteres határral képtelen az összes nyelvet magába foglalni, mivel az összes nyelv együtt 256-nál lényegesen több karaktert használ. Ezért a különböző írásrendszerek különböző kódlapokat használnak. Van külön kódlap a görög nyelv számára, egy másik a japán számára és így tovább.

Ezenfelül az egybájtos kódlapok nem képesek magukba foglalni a legtöbb ázsiai nyelvet, melyek gyakran 5000-nél is több kínai alapú karaktert használnak. Ezen nyelvek támogatására fejlesztették ki a kétbájtos kódlapokat.

(Forrás: Microsoft Office támogatás)

Fontos
Bár a kódlapok létezését általában észre sem vesszük, bizonyos programok, illetve műveletek a karakterkódolás külön beállítását teszik szükségessé, mert másként a mellékjeles karakterek (mint pl. ő, á, à, ù) nem jelennek meg megfelelően.

A különböző kódlapokat jól áttekinthetjük a Windows Start > Minden program > Kellékek > Rendszereszközök > Karaktertábla program segítségével, a Karakterkészlet legördülő menü segítségével. Magyar szöveg kódolására többnyire Windows közép-európai kódlapot, francia szöveghez Windows nyugat-európait vagy ISO 8859-1 (Latin1) kódlapot használunk, többnyelvű (pl. francia és magyar) szöveget együtt tartalmazó dokumentumhoz Unicode-ot (UTF-8).

Megoldások
A webböngészők (pl. Mozilla Firefox) és a levelező kliensprogramok (pl. Mozilla Thunderbird) menüje tartalmaz a karakterkódolás beállítására alkalmas parancsot. Általában működik a karakterkódolás automatikus felismerése, de ha mégis problémával találkozunk, keressük meg ezt a menüpontot (általában a Nézet vagy az Eszközök menüben), és állítsuk be a megfelelő kódlapot.

Ha egyszerű szövegfájlt (.txt) kell kezelnünk, vagy olyan fájlformátumú szöveget, amely nem a szövegszerkesztőnk saját formátumában készült (pl. a MS Word esetében .doc(x)), de amelyet egyébként a program képes kezelni, megnyitáskor a Word rákérdez a kódolásra, és a megjelenő párbeszédpanelen a szövegből látható egy minta, melyen ellenőrizhetjük, hogy jó kódolást választottunk-e ki. Ez visszafelé is működik: ha egy Wordben írott dokumentumunkat egyszerű szövegként akarjuk elmenteni, ugyanilyen párbeszédpanel bukkan fel, ahol kiválaszthatjuk a szövegünk karaktereinek megfelelő kódolást. Ha nem megfelelőt akarnánk választani, a mintában a Word pirossal kiemeli az adott kódlap szerint helyesen nem kódolható karaktereket. A Wordöt tehát ily módon - bizonyos határok között, több lépésben - a különféle forrásokból (pl. a webről) származó szövegeink szükség szerinti átkódolására is használhatjuk.

A szövegfájlok átkódolhatók (például, ha egy egységesen kódolt korpuszt akarunk kialakítani) a WebKeySoft Simple Text Encoding Converter nevű egyszerű programjával, mely az alanti linkről is letölthető (zip formátumú tömörített állomány, kitömörítés után rögtön futtatható). Figyelem: konverzió előtt melegen ajánlott biztonsági másolatot készíteni a fájljainkról!

 

Csatolmány

 

Updated: 2018.06.01.


Dear User!

 

The University of Debrecen considers the protection of personal data and the information provided to be of paramount importance. We hereby inform you that the University of Debrecen has reviewed its processes and incorporated the requirements of GDPR into his own data management and data protection activities, which entered mandatory on may 25,2018. The personal data of the users has been carefully handled by the University of Debrecen, it complies with the applicable data management regulations.Following the requirements of GDPR, we updated our Privacy Statement, which you can access by clicking on the link below: Privacy Policy.

I have read, understand and agree to terms.