Štěpán Tomsa

Štěpán Tomsa (CZ)

https://github.com/glutexo

Jazykozpytec, škarohlíd, mrzout… Již mnohaletý (asi senior prej) PHP vývojář z povolání. Zatím koníčkový, již brzy i profesionální (no, ehm… junior, batole) Ruby vývojář. Několikaletý pomocný kouč na ostravských PyLadies. Hrdá slezská náplava. Jediný člověk na světě, který si jako novoroční předsevzetí dal častější hraní počítačových her.

Around the World in 30 minutes
Czech flag Talk Data Science
Python Software Foundation Hall (-1.65)
Saturday 10. March: 10:05

Lidé mluví různými jazyky. Ba co hůř, oni jimi i píší a to i na počítači. Tyto jazyky se nepíší vždy latinkou. A i když ano, není ani ta vždy stejná. Tito lidé mají navíc v těchto jazycích a znakových sadách dokonce i jména, poštovní adresy atd. a vyplňují je třeba do webových formulářů. A to vše je jen začátek boje s řetězci…

To, že v řetězcích se většinou ukrývá text v nějakém lidském jazyce, asi všichni tušíme. Snad jsme se každý i pokusili někdy nějaký takový zpracovat, porovnávat, řadit, ti odvážnější třeba i skloňovat. Odhrňme závěs a posviťme si na některé z těch unicodových nestvůr. Nakonec budeme rádi, že se nám takový text aspoň zobrazí na obrazovce; a někdy dokonce i správně. Alespoň dokud se nám na webu nezaregistruje někdo z Klingonské říše…