VÝVOJ DIS (Dokumentografické informační systémy)
1950 – systémy zpracování sekundárních informací
1970 – systémy zpracování úplných textů
1990 – digitální knihovny
Zdroje:
– vznik textů přímo v počítači
– potřeba vyhledávat – nejen listovat
– ne vždy možné indexovat
– rozvoj velkých pamětí
– rozvoj komunikací (internet)
Vyhledávání v textech
DOTAZ = požadavek formulovaný v nějakém jazyce
– bývá zadán vzorkem textu (slovo, výraz, část slova), nebo několika vzorky (konjuktivní dotaz)
– Obecněji: Boolský výraz
Odpověď (množina hitů) – texty vyhovující dotazu
Relevance hitu – míra rozsahu, kterou se hit shoduje s požadavkem uživatele
Omezení odpovědi: – maximálně M
– maximálně M nejrelevantnějších
– zadání prahové hodnoty
Obor: INFORMATION RETRIEVAL (vyhledávání informací)
– nalézt k dotazu relevantní dokumenty (to co chci nalézt je v mase dat, která nechci)
Obor: INFORMATION FILTERING (filtrování informací)
– přiřadit k dokumentu D profily tak, že D je pro ně relevantní (druhý pohled pro vyhledávání)