Kan een computer samenvatten of niet?
Deze vraag stelt Kees Vuik, medewerker van het maandblad Computer Totaal, in de aflevering van juni 2000. Nee, nog niet, luidt het antwoord van de schrijver. Ja, zegt de firma Comsys in het persbericht van 6 maart waarin de geboorte wordt aangekondigd van het programma Sinope, dat teksten samenvat en dat dertig duizend gulden moet kosten. Wie heeft er gelijk? Kees Vuik, want die heeft dit programma flink onder handen genomen, waarna hij tot de conclusie komt dat Sinope alleen maar willekeurig zinnen weglaat en dus geen teksten begrijpt en intelligent samenvat. Dit onbetaalbare programma presteert hetzelfde als een programmaatje dat gratis in Word 2000 zit.
Volgens het door Vuik geciteerde
persbericht van Comsys 'ontleedt Sinope een tekst in syntactisch
verantwoorde stukken, bouwt daarmee een semantische structuur op, gaat de zo
ontstane betekenisboom vervolgens op uitgekiende plekken snoeien, waardoor
de belangrijkste onderdelen overblijven en genereert uit die onderdelen een
nieuwe, ingekorte tekst'.
Bij een bezoek van Kees Vuik aan de
producent van dit ongelooflijke programma, wordt zo maar een tekst uit Trouw
van het Internet gehaald en in Sinope geladen. Je hoeft alleen maar aan te
geven met hoeveel procent je het artikel wilt indikken op start drukken en
je samenvatting rolt over het scherm.
Op verzoek van Vuik maakte de
productmanager van Comsys vier versies van 75, 50, 25 en 15 procent, waarmee
hij voor verdere studie naar huis vertrok.
Bij thuiskomst constateert Kees Vuik
dat alle zinnen nog in dezelfde volgorde staan en dat geen enkele zin in ook
maar één woord afwijkt van het origineel. Het enige verschil tussen de vier
samenvattingen is dat ze steeds minder zinnen bevatten¼
Sinope heeft dus alleen maar zinnen weggegooid. En dat is volgens Vuik,
zelfs zonder enig begrip van de tekst gebeurd. In de sterkst ingedikte
versie van het artikel zijn een aantal essentiële zinsdelen weggelaten,
zoals de naam van het blad waarin het artikel is verschenen, de naam van het
bedrijf waaraan het artikel is gewijd en ook de zin met de naam van de 'ze'
die het bedrijf heeft opgericht (Nina Brink) is na indikking niet in de
samenvatting terug te vinden. Vuiks conclusie: een beroerde samenvatting van
een slecht presterend programma.
Nu was er nog een persbericht van de
makers van Sinope waarin stond vermeld dat 'bij testen met het
vwo-eindexamenvak Nederlands Samenvatten, Sinope uitstekend in staat bleek
te zijn om de kern uit een tekst te halen'. Dat bericht trok natuurlijk ook
mijn aandacht vanwege de hulp die dat programma de leerlingen dan kon bieden
bij de training voor de Samenvatting. Als Vuik per e-mail de maker van
Sinope hierover benadert, dan verneemt hij van hem dat het nog niet mogelijk
is een semantische analyse te maken van teksten waardoor ook geen zinnen
kunnen worden herschreven. Het povere resultaat blijft dan ook dat Sinope
alleen zinnen schrapt en dat worden de eindexamenleerlingen, als ze een
voldoende willen scoren, niet verondersteld te doen.
Zelf een samenvatter bouwen
Als een gratis meegeleverd programmaatje bij Word 2000 al in staat is om willekeurige zinnen in een tekst te schrappen, dan zou je volgens Kees Vuik ook kunnen aangeven met welke woorden de te schrappen zinnen moeten beginnen. Kees Vuik: 'we beginnen met zinsdelen te schrappen, in plaats van hele zinnen. Voorbeelden: alles dat tussen haakjes staat kan weg; een zinsdeel dat begint met want kan weg; als een zin eindigt met omdat, kan dat laatste stukje weg; zinnen met een dubbele punt, gevolgd door aanhalingstekens openen, kunnen weg. Vervolgens kunnen alle zinnen weg die beginnen met: Naar verwachting, In de toekomst, Het is nog onduidelijk en zinnen die eindigen met: is niet duidelijk, zal de toekomst uitwijzen etc. Het programma zal dan wel de op de weggelaten zinnen of zinsdelen volgende zinnen moeten controleren op verbindingswoorden zoals: Dus, Daarom, Daardoor, Zodat, Waardoor, Dat betekent enz. Omdat het verband met de vorige zin is verbroken, moeten dit soort zinnen dus ook weg. Het kan gebeuren dat het programma al schrappend in een alinea nog maar één zin laat staan. Uiteraard moet deze dan ook weg. Blijkt er nog teveel tekst over te blijven, dan laat je het programma ook nog elke één na laatste zin van elke alinea schrappen. Van de eerste alinea van de tekst kun je beter afblijven, evenals van elke eerste zin van elke daarop volgende alinea. Zinnen met getallen en woorden met hoofdletters kunnen belangrijk zijn en kunnen dus beter blijven staan'.
Wie pakt de handschoen op?
Dat vraagt Vuik, omdat het volgens
hem best mogelijk is om met een simpel programma teksten in te dikken, maar
alleen als natuurlijk eerst op intelligente wijze het programma wordt gevoed
met een lijst van wat er wel en niet geschrapt mag worden. De lijst van Vuik
zal dus moeten worden uitgebreid en uiteraard worden getoetst, bijvoorbeeld
door de eindexamens Samenvatting Nederlands van de afgelopen jaren er
doorheen te halen. Zou de computer het dan afleggen tegen de slecht scorende
leerlingen of misschien zelfs beter presteren dan deze? Of is er voor het
goed samenvatten echt menselijke intelligentie nodig?
Een handige programmeur moet volgens
Vuik in staat zijn om een samenvattingprogramma te schrijven. Ik kan daaraan
toevoegen dat docenten met ervaring in de wijze waarop hun leerlingen de
samenvatting aanpakken, de prestaties van de computer zouden moeten
beoordelen en aangeven waar deze de fout in gaat door onmisbare zinnen weg
te gooien.
En dan nog blijft twijfel over het
computerwerk gerechtvaardigd. Want hoe moet deze controleren of de vraag van
Vuik wie de handschoen oppakt wel wordt beantwoord en welke zin of zinnen
het antwoord daarop zijn, zodat die niet weg mogen? De computer moet in
ieder geval afblijven van zinnen die beginnen met ten eerste, ten tweede, in
de eerste plaats, vervolgens enz, want dat zijn meestal zinnen die vragen
beantwoorden of conclusies inleiden. Hoe uitgebreid de lijst van zinnen
of zinsdelen die de computer mag weggooien ook is, uiteindelijk zal het er
wel op neerkomen dat het inleidende computerwerk wordt gevolgd door
mensenwerk.
Een nieuw type examen?
Doordenkend over de laatste (voor
een samenvatting belangrijke) zin van hierboven, daagt een nieuw soort
examen op voor Nederlands, maar ook voor de Moderne Vreemde Talen. Hoe zou
dat in zijn werk kunnen gaan?
Leerlingen krijgen een tekst
voorgelegd en dragen de computer op deze in te dikken tot een door hen zelf
te bepalen percentage. Vervolgens controleren de leerlingen het computerwerk,
zetten zinnen terug die ten onrechte zijn geschrapt, halen overbodige zinnen
weg die zijn blijven staan en voegen met eigen woorden verbindende zinnen
toe die de tekst verduidelijken. Vervolgens vergelijkt de computer het
schrapwerk van de leerlingen met dat van het samenvattingsmodel van het cito.
Tenslotte telt de computer het aantal zinnen en woorden die door de
leerlingen zijn toegevoegd. Meer kan een computer, denk ik, niet aan.
Het cijfer voor de prestatie van de
leerlingen is gebaseerd op de correlatie tussen hun samenvatting en die van
het citomodel. Hoe meer overeenkomsten des te hoger het cijfer. Uiteindelijk
is de laatste controle van het gecombineerde computer-leerlingenwerk aan de
leraar die alsnog de uiteindelijke beoordeling geeft.
Als dit als examenwerk voor
Nederlands kan worden opgezet, moet het ook kunnen voor de Moderne Vreemde
Talen. Ook daarvoor lijkt me de computer-leerlingcombinatie van de
samenvatting een uitstekende vervanging van de MC en open vragen van de
huidige examens.
Gerard Westhoff schreef al zo'n 20
jaar geleden in een artikel in het blad van het Nederlands Genootschap van
Leraren met de uitdagende titel: Waarom de MC-toetsen beter kunnen worden
afgeschaft, dat naar zijn mening leerlingen niets leren van het beantwoorden
van vragen over teksten van anderen in plaats van zelf vragen te stellen aan
de tekst. Toch blijft het onderwijs maar bezig ze daarin te trainen.
Samenvatten van teksten in de doeltaal
dat zowel mondeling als schriftelijk geoefend kan worden, zou daar verandering
in kunnen brengen.
Leerling, computer en tekst zonder
tussenkomst van een vragensteller die van te voren al heeft bepaald waar de
leerlingen voor het goede antwoord moeten kijken in de tekst. Onhaalbaar?
Toekomstmuziek? In navolging van Kees Vuik vraag ik: Wie neemt de handschoen
op?
Nieuwsbrief 1-2001