PostgreSQL stemming za hrvatski

Nadnevak 20.08.2010 15:32:11 | Tema: Linux u Hrvata

Kao što ste već mogli čuti u nultom podcastu, Ivan Voras napravio je PostgreSQL stemming za hrvatski. To je nešto za sve one koji žele koristiti full text search u PostgreSQL-u sa modulom tsearch2 ali su primjetili da to nema puno smisla sa Hrvatskim jezikom bez modula za stemming koji će smanjiti broj varijacija riječi na nešto prihvatljivo. Arhiva sadrži dva dijela - ispell rječnik Denisa Lackovića prilagođen za tsearch2 i popratne SQL skripte te modul dict_regex za tsearch2 koji implementira regex transformacije na riječima, sa skupinom regex pravila za više-manje heuristički stemming jezika. Ovi dijelovi se mogu koristiti zasebno (češće) ili zajedno (uz malo dodatnog rada) a rade sa UTF-8. Modul je raspoloživ sa http://ftp.linux.hr/lokalizacija/postgresql/.



Ovaj članak dolazi sa HULK
http://www.linux.hr

URL priče je:
http://www.linux.hr/article.php?storyid=2915