utf-Erkennung

Anonymous · 25. September 2014

In den "html_xxx_wrapper"-Funktionen wird ein ziemlich komplexer (und damit zeitaufwändiger) regulärer Ausdruck verwendet, um zu erkennen, ob ein String utf-kodiert ist.

PHP:

if(preg_match('/(?:[\xC2-\xDF][\x80-\xBF]|\xE0[\xA0-\xBF][\x80-\xBF]|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}|\xED[\x80-\x9F][\x80-\xBF]|\xF0[\x90-\xBF][\x80-\xBF]{2}|[\xF1-\xF3][\x80-\xBF]{3}|\xF4[\x80-\x8F][\x80-\xBF]{2})+/xs', $p_string)) { $t_encoding = 'UTF-8'; }

Im Internet habe ich jetzt eine coole Alternative entdeckt, die daraus folgendes macht:

PHP:

if (preg_match('//u', $p_string)) { $t_encoding = 'UTF-8'; }