Vangst en precisie verbeteren: hoe doe u dat?

Of een zoekvraag ook de gewenste resultaten oplevert hangt af van de manier waarop de zoekvraag wordt geformuleerd. Begrippen die hierbij een rol spelen zijn: opbrengst, vangst en precisie (Foskett, 1982). In dit artikel gaan we dieper in op deze begrippen.

Toelichting begrippen

Elke zoekactie levert nul of meer resultaten c.q. documenten op. Dit resultaat wordt (bruto)opbrengst genoemd.

De opbrengst kan worden verdeeld in resultaten die handelen over het onderwerp waarop gezocht wordt en resultaten die niet over het gezochte onderwerp gaan. De verhouding tussen de resultaten die handelen over het onderwerp en de (bruto)opbrengst wordt precisie of precision genoemd.

Bij de meeste zoekacties worden niet alle resultaten die relevant zijn voor de vraag gevonden. De verhouding tussen de gevonden relevante resultaten en alle relevante resultaten in de collectie wordt vangst(verhouding) of recall genoemd.

Er wordt gesteld dat een vergroting van de vangst ten koste gaat van de precisie en omgekeerd. De grootte van beide hangt af van de gebruikte informatietaal, de kwaliteit van het indexeren, de mogelijkheden van het gebruikte zoeksysteem, de bekwaamheden van de zoeker en de te besteden tijd.

Factoren bij precisie

De precisie kan beïnvloed worden door:

  • Onjuiste verbanden tussen zoektermen (valse coördinatie)

Anatomie en verpleegsters: er worden zowel documenten gevonden over “anatomie voor verpleegsters” als “anatomie van verpleegsters”

  • Verkeerde betekenissen van homonieme begrippen

Bank: er worden zowel documenten gevonden die gaan over de bank als geldinstelling als de bank als zitmeubel

Aids: er worden documenten gevonden die handelen zowel over aids als ziekte als aids als het Engelse woord voor ‘hulpmiddelen’

  • Onvoldoende specificiteit van trefwoorden

In een sociaal wetenschappelijk bestand worden leeftijdscategorieën met trefwoorden aangegeven. Bij een indeling die niet verder gaat dan de categorieën ‘kinderen – tieners – volwassenen – ouderen’ zal bij een zoekvraag naar 40 tot 50-jarigen met de term ‘volwassenen’ (20-65 jaar) niet precies genoeg gezocht worden.

  • Niet specificeerbare omstandigheden
  • Niet doorzoekbaarheid van bepaalde velden
  • Te grote hoeveelheden tekst in records
  • Zoektermen die (voor een deel) stopwoorden zijn

off-season: het is niet mogelijk om (met zinsverband-operatoren) op het volledige begrip te zoeken. Als ‘off’ niet in de index voorkomt, levert deze zoekterm nul resultaten op.

De vangst kan beïnvloed worden door:

  • Variaties in schrijfwijze vb: centre – center, organisation - organization
  • Synoniemen voor begrippen Voorbeeld: bij een vraag naar ‘automatische regeling van het binnenklimaat in kassen’ zullen termen als ‘temperatuur’, ‘vochtigheid’, ‘ventilatie’ en dergelijke beschouwd kunnen worden als quasi-synoniemen van ‘klimaat’.
  • Algemene begrippen en omstandigheden
  • Indexering met een ruimer begrip (globale indexering)
  • Moeilijk specificeerbare omstandigheden
  • Geringe hoeveelheid tekst in records

 

Terug naar Internet
Your-hosting-domein