Bežné fulltextové vyhľadávanie v slovenčine nestačí
Slovenský jazyk má bohatú morfológiu. Ak systém nepracuje s lemma tvarmi, rôzne tvary toho istého slova sa správajú ako rozdielne výrazy.
Čo sa deje bez lematizácie
- „zákon“, „zákona“ a „zákony“ sa správajú ako odlišné výrazy.
- Relevantné dokumenty sa nemusia nájsť, aj keď obsahujú správny význam.
- Text bez diakritiky situáciu ešte zhoršuje.
- Stemming pre slovenčinu často nestačí a vedie k nepresným výsledkom.
Čo robí LALS
- Prevádza slová na základné tvary vhodné pre vyhľadávanie.
- Pri nejednoznačných slovách vracia viac relevantných lemma kandidátov.
- Podporuje spracovanie HTML a zachovanie pozícií slov pre highlighting.
- Vie pracovať aj s textom bez diakritiky.
Slovenčina potrebuje lematizáciu, nie len orezávanie slov
Pri stemmingu zostávajú príbuzné tvary často neprepojené. Lematizácia vracia spoločný základný tvar a výrazne zlepšuje kvalitu vyhľadávania.
Stemming
človek → člov
ľudia → ľud
Lematizácia
človek → človek
ľudia → človek
Stemming
ísť → ís
ide → ide
išiel → iš
Lematizácia
ísť → ísť
ide → ísť
išiel → ísť
Navrhnuté pre produkčné nasadenie
LALS je optimalizovaný na nízku latenciu, vysokú priepustnosť a stabilné správanie pri súbežnej záťaži.
Kde LALS prináša hodnotu
- fulltextové vyhľadávanie a enterprise search
- dokumentové systémy a archívy
- analýza e-mailov a komunikácie
- eGovernment, compliance a právne systémy
- NLP pipeline a predspracovanie textu pre AI
Kľúčové vlastnosti
- špecializácia na slovenský jazyk
- spracovanie HTML dokumentov a pozícií slov
- podpora vstupu bez diakritiky
- samostatná REST služba bez externých databáz
- možnosť on-premise nasadenia cez .deb balík a systemd
Rýchle nasadenie do existujúcich systémov
LALS funguje ako standalone HTTP služba na embedded Jetty serveri a nevyžaduje externú databázu ani zložitú infraštruktúru.
REST API
Jednoduché endpointy pre voľný text aj HTML umožňujú rýchlu integráciu do backendových služieb, pipeline a vyhľadávacích systémov.
Apache Solr
Vlastný tokenizer pre Solr umožňuje lematizáciu, prácu s diakritikou aj highlighting vo formátovanom HTML obsahu.
Jednoduché nasadenie
Debian balík, systemd služba, konfiguračné súbory v /etc/lals a nemenné jazykové dáta v /usr/share/lals/data.
Pridaná hodnota pre integrátorov a enterprise dodávateľov
LALS je vhodný ako komponent do vlastných produktov a riešení, kde je dôležitá kvalita vyhľadávania v slovenskom jazyku bez potreby vlastného NLP vývoja.
- zlepšenie vyhľadávania pre klientov bez budovania vlastného jazykového modulu
- jednoduchá integrácia do DMS, archívov, knowledge base a enterprise search riešení
- on-premise prevádzka vhodná pre citlivé dáta a regulované prostredia
- možnosť rozšírenia o inteligentné query expansion ako samostatne licencovanú funkcionalitu
Podklady pripravené pre technické aj obchodné rokovania
K produktu je pripravená technická a integračná dokumentácia, benchmark aj materiál pre systémových integrátorov.
Technical Overview
Prehľad princípu fungovania, API endpointov, spracovania HTML, diakritiky a voliteľného query expansion.
Deployment Guide
Inštalácia .deb balíka, konfigurácia, systemd služba, upgrade postup a prevádzkové odporúčania.
Solr Integration Guide
Konfigurácia tokenizera, schéma, endpointy /text/ a /html/, highlighting a end-to-end scenár.
Benchmark a partner materiály
Výkonnostné čísla, latencie, škálovanie a argumenty pre partnerov a pilotné nasadenie.
Máte záujem o demo alebo technickú konzultáciu?
Rád ukážem reálne spracovanie slovenského textu, možnosti integrácie a vhodný spôsob nasadenia pre váš systém.
Možnosť krátkeho dema, technickej konzultácie alebo partner diskusie.