Caractères et codes

Szövege furcsa karaktereket tartalmaz? Nem találja a szavakat?
Mindannyian találkoztunk már azzal a jelenséggel, hogy a számítógép értelmes szöveg helyett "hieroglifákat", helytelen betűket vagy egyenesen értelmezhetetlen karaktersorokat jelenít meg a böngészőben, az e-mailjeinkben vagy a szövegszerkesztőnkben. Ez bármilyen szoftver használata közben előfordulhat, és nemcsak a megértést zavarhatja, hanem megakadályozhatja a szoftver normális működését is. A keresés és/vagy csere parancsot például nem tudjuk futtatni, ha a szövegünkben ilyen hibák vannak, és a nyelvészeti szoftvereink (például a konkordancia-programunk) sem lesznek képesek megfelelő eredményt produkálni. Ez az oldal a jelenség megértésében segít, és megoldást is kínál egyes esetekre.

Írásrendszerek
A több nyelvű üzenetek és elemek olyan nyelvű szöveget tartalmazhatnak, melyek különböző írásrendszereket igényelnek. Egyetlen írásrendszer használatával számos nyelv jeleníthető meg.

A latin vagy római írásrendszer például rendelkezik karakterformákkal – jelekkel – az angol ábécé 26 betűje számára (kis- és nagybetűkre egyaránt), de ékezetes (bővített) karaktereket is tartalmaz az egyéb nyugat-európai nyelvek hangjai számára.

A latin írásrendszer rendelkezik a legtöbb európai – és néhány egyéb – nyelvben előforduló összes karakter megjelenítéséhez szükséges jellel. Más európai nyelvek esetében – mint a görög vagy az orosz – vannak olyan karakterek, melyekhez nincsenek jelek a latin írásrendszerben; ezek a nyelvek saját írásrendszerrel rendelkeznek.

Néhány ázsiai nyelv ideografikus írásrendszert használ, melynek jelei a kínai karaktereken alapulnak. Más nyelvek, mint a thai és az arab, olyan írásrendszert használnak, melynek jelei számos kisebb jelből tevődnek össze, illetve olyan jelekből, melyek másképp alakulnak a szomszédos karakterektől függően.

Az egyszerű szöveg tárolásának gyakori módja, hogy minden egyes karaktert egy bájt képvisel. Minden egyes bájt értéke egy numerikus index – vagy kódpont – egy karaktertáblázatban; egy kódpont egy karakternek felel meg a számítógép alapértelmezett kódlapján, melyen a szöveges dokumentumot létrehozzuk. A 189 decimális bájtérték (a 189 decimális érték kódpontja) például különböző kódlapokon különböző karaktereket jelenít meg.

Kódlapok
A karakterek csoportosított táblázatát kódlapnak nevezzük. Az egybájtos kódlapoknál minden kódlap legfeljebb 256 bájtnyi értéket tartalmaz; mivel a kódlap minden egyes karakterét egyetlen bájt képviseli, egy kódlap összesen 256 karaktert tartalmazhat.

Egyetlen kódlap a 256 karakteres határral képtelen az összes nyelvet magába foglalni, mivel az összes nyelv együtt 256-nál lényegesen több karaktert használ. Ezért a különböző írásrendszerek különböző kódlapokat használnak. Van külön kódlap a görög nyelv számára, egy másik a japán számára és így tovább.

Ezenfelül az egybájtos kódlapok nem képesek magukba foglalni a legtöbb ázsiai nyelvet, melyek gyakran 5000-nél is több kínai alapú karaktert használnak. Ezen nyelvek támogatására fejlesztették ki a kétbájtos kódlapokat.

(Forrás: Microsoft Office támogatás)

Fontos
Bár a kódlapok létezését általában észre sem vesszük, bizonyos programok, illetve műveletek a karakterkódolás külön beállítását teszik szükségessé, mert másként a mellékjeles karakterek (mint pl. ő, á, à, ù) nem jelennek meg megfelelően.

A különböző kódlapokat jól áttekinthetjük a Windows Start > Minden program > Kellékek > Rendszereszközök > Karaktertábla program segítségével, a Karakterkészlet legördülő menü segítségével. Magyar szöveg kódolására többnyire Windows közép-európai kódlapot, francia szöveghez Windows nyugat-európait vagy ISO 8859-1 (Latin1) kódlapot használunk, többnyelvű (pl. francia és magyar) szöveget együtt tartalmazó dokumentumhoz Unicode-ot (UTF-8).

Megoldások
A webböngészők (pl. Mozilla Firefox) és a levelező kliensprogramok (pl. Mozilla Thunderbird) menüje tartalmaz a karakterkódolás beállítására alkalmas parancsot. Általában működik a karakterkódolás automatikus felismerése, de ha mégis problémával találkozunk, keressük meg ezt a menüpontot (általában a Nézet vagy az Eszközök menüben), és állítsuk be a megfelelő kódlapot.

Ha egyszerű szövegfájlt (.txt) kell kezelnünk, vagy olyan fájlformátumú szöveget, amely nem a szövegszerkesztőnk saját formátumában készült (pl. a MS Word esetében .doc(x)), de amelyet egyébként a program képes kezelni, megnyitáskor a Word rákérdez a kódolásra, és a megjelenő párbeszédpanelen a szövegből látható egy minta, melyen ellenőrizhetjük, hogy jó kódolást választottunk-e ki. Ez visszafelé is működik: ha egy Wordben írott dokumentumunkat egyszerű szövegként akarjuk elmenteni, ugyanilyen párbeszédpanel bukkan fel, ahol kiválaszthatjuk a szövegünk karaktereinek megfelelő kódolást. Ha nem megfelelőt akarnánk választani, a mintában a Word pirossal kiemeli az adott kódlap szerint helyesen nem kódolható karaktereket. A Wordöt tehát ily módon - bizonyos határok között, több lépésben - a különféle forrásokból (pl. a webről) származó szövegeink szükség szerinti átkódolására is használhatjuk.

A szövegfájlok átkódolhatók (például, ha egy egységesen kódolt korpuszt akarunk kialakítani) a WebKeySoft Simple Text Encoding Converter nevű egyszerű programjával, mely az alanti linkről is letölthető (zip formátumú tömörített állomány, kitömörítés után rögtön futtatható). Figyelem: konverzió előtt melegen ajánlott biztonsági másolatot készíteni a fájljainkról!

Csatolmány

Last update: 2023. 10. 18. 14:19