English
Kamil Dudka

CharsetDetector (PHP)

CharsetDetector/files/charset.jpeg

CharsetDetector je PHP komponenta, která zajišťuje automatickou detekci znakové sady. Detekce je založena na statické analýze vstupního textu. Na základě detekované znakové sady je možné text automaticky překódovat do zvoleného kódování. Pro převod znakové sady musí být k dispozici PHP rozšíření iconv, pro samotnou detekci však rozšíření není potřeba.

Komponenta má velice jednoduché a přímočaré rozhraní. Byla testována na českých textech používající znakové sady ISO 8859-2, Windows 1250 a UTF-8. Pro texty používající jednotnou znakovou sadu byla detekce 100% úspěšná.

CharsetDetector samozřejmě není omezený na nějaké konkrétní znakové sady nebo konkrétní jazyk. Pravidla pro detekci lze nastavit libovolně, navíc je možné tyto pravidla měnit za běhu. Názorné ukázky použití této komponenty najdete v krátkém tutoriálu:

Zdrojový kód

Dokumentace

Acknowledgement

Otakar Pinkas reported a bug that had been breaking initialization of the CharsetDetector class in case a non-default argument was given to its constructor.