Text Mining

home/ IT/ Text Mining

Text Mining / Data Mining

Text Mining is het analyseren van tekst door een computer. Het doel van text mining is om hoogwaardige gegevens automatisch uit een tekst te halen. Een simpel voorbeeld is het detecteren en opslaan van email adressen die in een tekst staan. Het is mogelijk om een emailadres te omschrijven aan de hand van een aantal voorwaarde. Er moet een @ (apenstaartje) in zitten, er moet tekst voor de @ staan, er moet tekst achter de @ staan en na de @ moet er een punt (.) staan tussen twee stukken tekst. In computer termen wordt dit een reguliere expressie voor emailadressen genoemd. In simpele notificatie voor deze reguliere expressie is :
[A-Z0-9]+@[A-Z0-9]+\.[A-Z]{2,4}

[A-Z0-9] = Alleen karakters van A tot Z of van 0 tot 9 worden gebruikt, er mag een punt (.) in voorkomen. Er mogen hier dus geen speciale karakters staan zoals een # teken.
@ = Na bovengenoemd deel moet er een @ (apenstaartje) teken staan.
[A-Z0-9] = Na de @ volgt een stuk tekst. Alleen karakters van A tot Z of van 0 tot 9 worden gebruikt, er mag een punt (.) in voorkomen. Er mogen hier dus geen speciale karakters staan zoals een # teken.
\. = Er moet een punt (.) staan
[A-Z]{2,4} = Na de punt (.) moeten er 2 tot 4 letters volgen. Hierin mogen geen speciale tekens of cijfers in voorkomen.

Een reguliere expressie is een van de meest simpele vormen van text mining maar direct een hele krachtige vorm. In het voorbeeld van het emailadres is de kans op ruis, het vinden van waarden die geen emailadressen zijn, zeer klein. De gevonden waarden kunnen in de database worden opgeslagen zodat er direct een mailinglijst ontstaat zonder dat er maar een mensenoog naar de teksten gekeken heeft.

Andere voorbeelden van veel gebruikte reguliere expressies zijn: Nummerboorden, website adressen en Postcodes. Het is ook mogelijk om een reguliere expressie te creëren die alleen bruikbaar is voor bepaalde teksten. Bijvoorbeeld als men weet dat er met een bepaalde codering binnen een bedrijf wordt gewerkt.

Een tweede manier van text mining is het gebruik maken van woordenlijsten. De tekst wordt dan vergeleken met een woordenlijst waar alle bekende bedrijfsnamen in voorkomen. Indien een bedrijfsnaam matched met de woordenlijst wordt deze in de database opgeslagen. Deze manier van text mining kan veel ruis opleveren omdat een naam van een bedrijf ook een normaal woord kan zijn zoals bijvoorbeeld het bedrijf Apple wat in het Engels appel betekend. Een ander nadeel is dat woordenlijsten verouderen en waardoor nieuwe bedrijven niet gevonden worden.

Een derde manier van text mining is het vinden van trefwoorden (keywords) voor een document. Dit houdt in dat er een algoritme wordt ontwikkeld dat de belangrijke woorden uit een document kan halen. Het algoritme telt alle woorden in een tekst. Vervolgens vergelijkt hij de woorden met een woorden lijst die hij heeft opgemaakt uit andere teksten. Veel voorkomende woorden negeert hij zodat woorden als "de", "het", "een", "zijn", "is", etc er automatisch worden uitgefilterd. Unieke woorden blijven hierdoor over maar woorden die te uniek zijn omdat ze slechts een of twee keer in de woordenlijst voorkomen worden ook genegeerd. Hierdoor blijft er een lijst met relevante termen over die als trefwoord voor het document kunnen worden aangemerkt. De uitdaging in deze manier van text mining is om trefwoorden te vinden die niet letterlijk in het document voorkomen maar waar het document wel over gaat. Bijvoorbeeld een tekst bevat de namen Clinton, Bush en Obama. Het systeem vindt het trefwoord President zonder dat deze term letterlijk in de tekst voorkwam. Dit kan omdat in de teksten die Clinton of Bush of Obama bevatten altijd het trefwoord President werd gevonden. Hierdoor is het mogelijk om een tekst die deze namen allemaal bevat maar niet de term President toch van het trefwoord President te voorzien.

Een vierde vorm van Text mining is het vinden van grammaticale patronen. Hiermee wordt bedoeld dat de computer de inhoud van een zin kan herkennen. Een voorbeeld hiervan is; [Persoon] [betalen] [persoon]. De computer zal zoeken naar documenten die zinnen bevatten waarin een persoon een betaling doet aan een andere persoon. Bij onderzoek naar financiële fraude is deze manier van text mining van onschatbare waarde omdat men direct die documenten uit de data set kan halen waarin relevante informatie zal staan. Deze manier van mining is rekenkracht intensief omdat de Text Mining software niet alleen woorden moet herkennen maar ook de structuur van een zin moet begrijpen. Vaak wordt deze manier van text mining op een relatief kleine set van data uitgevoerd.

Text mining is een intelligente methode van het inzetten van computer technologie voor het classificeren van documenten. Text mining wordt vaak ingezet in combinatie met een visualisatie tool. De gevonden waarden van de text mining worden zo gepresenteerd dat er structuren duidelijk worden waardoor er patronen in de data herkend kunnen worden. Als bijvoorbeeld twee verdachten veel contact hebben met een derde persoon, is de kans groot dat deze derde persoon ook belangrijk voor het onderzoek is. De uitdaging die er voor de text mining ligt is het kunnen filteren van de ruis die mee komt in de waarden die gevonden worden. Hierdoor is het waarschijnlijk dat de zelf leerderende text mining software de toekomst zal hebben.