CharsetDetector (PHP)
CharsetDetector
je PHP komponenta, která zajišťuje automatickou detekci znakové sady. Detekce je založena na statické analýze vstupního textu. Na základě detekované znakové sady je možné text automaticky překódovat do zvoleného kódování. Pro převod znakové sady musí být k dispozici PHP rozšíření iconv
, pro samotnou detekci však rozšíření není potřeba.
Komponenta má velice jednoduché a přímočaré rozhraní. Byla testována na českých textech používající znakové sady ISO 8859-2
, Windows 1250
a UTF-8
. Pro texty používající jednotnou znakovou sadu byla detekce 100% úspěšná.
CharsetDetector
samozřejmě není omezený na nějaké konkrétní znakové sady nebo konkrétní jazyk. Pravidla pro detekci lze nastavit libovolně, navíc je možné tyto pravidla měnit za běhu. Názorné ukázky použití této komponenty najdete v krátkém tutoriálu:
Zdrojový kód
Dokumentace
Acknowledgement
Otakar Pinkas reported a bug that had been breaking initialization of the CharsetDetector class in case a non-default argument was given to its constructor.