Phrase matching and indexing in PHASAR

By Kees Koster.

Abstract

Door de grote verbreiding van woordgebaseerde zoekmachines als Google zijn we het langzamerhand gewoon gaan vinden in teksten te zoeken met behulp van enkele losse woordjes. We weten haast niet meer beter en zijn er heel bedreven in geworden. Toch zijn er duidelijke tekortkomingen aan deze manier van zoeken: steeds krijg je veel te veel of te weinig hits, je moet maar raden welke woorden je in de query moet gebruiken of daaraan toevoegen en voor sommige zoekvragen lukt het gewoon niet om door de brei van (vaak commerciële) onzin heen te komen.

Deze voordracht gaat over de ideeën achter de experimentele zoekmachine PHASAR, die daarvoor een alternatief probeert te bieden, door het gebruik van phrasen in plaats van woorden als zoektermen, en ondersteuning van het zoeken vanuit de index en de thesaurus. PHASAR wordt op een andere manier gebruikt dan Google, heeft een heel ander gebruikersinterface en is niet geschikt voor de gemiddelde Microsoft gebruiker. Voor professioneel zoeken (bijvoorbeeld in patent teksten) biedt PHASAR echter ongekende nieuwe mogelijkheden.

Het PHASAR prototype (een literatuur zoekmachine op 17 miljoen Medline abstracts) wordt gedemonstreerd. Daarna wordt ingegaan op twee technische aspecten die beslissend zijn voor de efficiency van deze nieuwe technologie: het matchen van queries tegen documenten en het analyseren en indiceren van grootschalige teksten.

Deze voordracht treft verscheidene thema's van de NLUUG conferentie: Zoeken en terughalen, Zoeken in ongeordende gegevens, Enorme data opslag. Maar vooral geeft de voordracht een blik op nieuwe technische problemen, opgeworpen door nieuwe toepassingen.

Biography

Kees Koster is a professor at the Department of Informatics of the University of Nijmegen in the Netherlands. His research interests include syntactic methods, two-level grammars, parsing techniques, programming languages, information retrieval, document routing and text classification. He has been teaching and researching these topics in Nijmegen for over 25 years.

Voorjaar 2009

2024-11-06
Vereniging NLUUG
info@nluug.nl
           postbus 8189
6710 AD Ede