Michael Chen | Content Strategist | 25 november 2024
Machine learning is de afgelopen jaren een begrip geworden omdat het concept zich heeft ontwikkeld van science fiction tot een belangrijke drijvende kracht achter de manier waarop bedrijven en organisaties informatie verwerken. Nu het tempo waarin gegevens worden gecreëerd exponentieel blijft groeien, zijn tools voor machine learning van cruciaal belang voor organisaties die patronen willen ontdekken, trends willen ontdekken en de meest winstgevende weg voorwaarts willen uitstippelen.
Hoe gebruikelijk is machine learning? Als u op een aanbeveling van een e-commercewebsite of streamingplatform hebt geklikt, op de hoogte bent gesteld van mogelijk misbruik van een creditcard of transcriptiesoftware hebt gebruikt, hebt u geprofiteerd van machine learning. Het wordt gebruikt in de financiële sector, gezondheidszorg, marketing, retail en vele andere sectoren om waardevolle inzichten uit gegevens te halen en processen te automatiseren.
Machine learning (ML) is een vorm van kunstmatige intelligentie die zich richt op het bouwen van systemen die leren en verbeteren naarmate ze meer gegevens verbruiken. Kunstmatige intelligentie is een bredere term die naar systemen of machines verwijst die menselijke intelligentie nabootsen. Ook al worden machine learning en AI vaak in één adem genoemd en worden de termen soms door elkaar gebruikt, ze betekenen niet hetzelfde.
Kortom, alle machine learning is AI, maar niet alle AI is machine learning.
Voornaamste conclusies
Machine learning is een techniek die voorheen onbekende relaties in gegevens ontdekte door potentieel zeer grote gegevenssets te doorzoeken om patronen en trends te ontdekken die verder gaan dan eenvoudige statistische analyse. Machine learning maakt gebruik van geavanceerde algoritmen die zijn getraind om patronen in gegevens te identificeren, waardoor modellen worden gecreëerd. Deze modellen kunnen worden gebruikt om voorspellingen te doen en gegevens te categoriseren.
Merk op dat een algoritme niet hetzelfde is als een model. Een algoritme is een verzameling regels en procedures die worden gebruikt om een specifiek probleem op te lossen of een bepaalde taak uit te voeren, terwijl een model de uitvoer of het resultaat is van het toepassen van een algoritme op een gegevensreeks.
Voor de training is een algoritme nodig. Na de training komt een model.
Zo wordt machine learning op grote schaal gebruikt in de gezondheidszorg voor taken als analyse van medische beelden, voorspellende analyses en diagnose van ziekten. Machine-learningmodellen zijn bij uitstek geschikt voor het analyseren van medische beelden, zoals MRI-scans, röntgenfoto's en CT-scans, om patronen te identificeren en afwijkingen op te sporen die misschien niet zichtbaar zijn voor het menselijk oog of die een overwerkte diagnosticus misschien over het hoofd ziet. Machine-leersystemen kunnen ook symptomen, genetische informatie en andere patiëntgegevens analyseren om tests voor te stellen voor aandoeningen zoals kanker, diabetes en hartaandoeningen.
De belangrijkste kenmerken van machine learning zijn
Er zijn vier hoofdtypen van machine learning. Elk heeft zijn eigen sterke punten en beperkingen, waardoor het belangrijk is om de juiste aanpak te kiezen voor de specifieke taak die moet worden uitgevoerd.
Versterkende machine learning gebruikt, net als unsupervised machine learning, ongelabelde gegevenssets en laat algoritmen de gegevens evalueren. Versterkingsleren verschilt echter in die zin dat het naar een bepaald doel toewerkt in plaats van gegevens te onderzoeken om eventuele patronen te ontdekken. Met een doel voor ogen voert het algoritme een proces van trial-and-error uit. Elke zet krijgt positieve, negatieve of neutrale feedback, die het algoritme gebruikt om zijn algemene besluitvormingsproces aan te scherpen. Versterkingslerende algoritmen kunnen op macroniveau naar het projectdoel toewerken, zelfs als dat betekent dat ze op korte termijn met negatieve gevolgen te maken krijgen. Op die manier kan versterkingsleren meer complexe en dynamische situaties aan dan andere methoden, omdat het de context van het projectdoel het risico in keuzes laat beïnvloeden. Een computer leren schaken is een goed voorbeeld. Het algemene doel is om het spel te winnen, maar dat kan het opofferen van stukken vereisen als het spel doorgaat.
Wat voldoet het beste aan uw behoeften? De keuze voor een beheerde aanpak of een van de andere drie methoden hangt meestal af van de structuur en het volume van uw gegevens, het budget en de uren die u aan training kunt besteden en het gebruikscenario waarop u het uiteindelijke model wilt toepassen. Een suggestie voor een blouse die bij een rok past, kan onbelangrijk zijn. Een tumor missen, nog minder.
Zoals de naam al doet vermoeden, werkt machine learning door het ontwikkelen van computergebaseerde statistische modellen die worden geoptimaliseerd voor een specifiek doel door het analyseren van trainingsgegevens. Dit in tegenstelling tot de traditionele methode, waarbij programmeurs een vast algoritme creëren dat een probleem probeert op te lossen. Terwijl datasets door het ML-model worden gehaald, wordt de resulterende output beoordeeld op nauwkeurigheid, waardoor datawetenschappers het model kunnen aanpassen via een reeks vaststaande variabelen, hyperparameters genaamd, en algoritmisch aangepaste variabelen, leerparameters genaamd.
Omdat het algoritme zich aanpast terwijl het trainingsgegevens evalueert, traint het proces van blootstelling aan en berekening van nieuwe gegevens het algoritme om beter te worden in wat het doet. Het algoritme is het rekenkundige deel van het project, terwijl de term 'model' een getraind algoritme voor echte woordgebruiksgevallen kan worden gebruikt.
De omvang, middelen en doelen van machine-learningprojecten bepalen het meest geschikte pad, maar de meeste bestaan uit een reeks stappen.
1. Gegevens verzamelen en bundelen
Voor het trainen van ML-modellen zijn veel gegevens van hoge kwaliteit nodig. Het vinden ervan is soms moeilijk en het labelen ervan kan, indien nodig, veel middelen vergen. Nadat u potentiële gegevensbronnen hebt geïdentificeerd, evalueert u deze om de algehele kwaliteit te bepalen en de afstemming met de bestaande gegevensintegratie/opslagbronnen van het project. Deze bronnen vormen de trainingsbasis van een machine learning-project.
2. Selecteer een geschikt algoritme om het gewenste model te genereren
Afhankelijk van of men in het project supervised, unsupervised of semi-supervised learning wil gebruiken, kunnen datawetenschappers de meest geschikte algoritmen selecteren. Een eenvoudiger project met een gelabelde gegevensset kan bijvoorbeeld een beslisboom gebruiken, terwijl clusteren - gegevensmonsters verdelen in groepen van vergelijkbare objecten - meer rekenkracht vereist omdat het algoritme zonder supervisie werkt om het beste pad naar een doel te bepalen.
3. Gegevens verfijnen en voorbereiden voor analyse
De kans is groot dat binnenkomende gegevens nog niet klaar zijn. Gegevensvoorbereiding schoont datasets op om ervoor te zorgen dat alle records gemakkelijk tijdens de training kunnen worden opgenomen. De voorbereiding bestaat uit verschillende transformatietaken, zoals het instellen van datum- en tijdnotaties, het samenvoegen of splitsen van kolommen indien nodig, en het bepalen van andere formaatparameters, zoals het aantal toegestane significante cijfers in gegevens met reële getallen. Andere belangrijke taken zijn het verwijderen van dubbele records, ook wel dataduplicatie genoemd, en het identificeren en mogelijk verwijderen van uitschieters.
4. Het model door middel van training opleiden
Zodra het gewenste eindmodel is geselecteerd, begint het trainingsproces. Tijdens de training wordt een gecureerd gegevensbestand, gelabeld of ongelabeld, naar het algoritme gestuurd. In de eerste runs zijn de resultaten misschien niet geweldig, maar datawetenschappers zullen deze waar nodig aanpassen om de prestaties te verfijnen en de nauwkeurigheid te vergroten. Daarna krijgt het algoritme opnieuw gegevens te zien, meestal in grotere hoeveelheden om het nauwkeuriger af te stellen. Hoe meer gegevens het algoritme ziet, hoe beter het uiteindelijke model wordt in het leveren van de gewenste resultaten.
5. De prestaties en nauwkeurigheid van het model beoordelen
Nadat het model met voldoende nauwkeurigheid is getraind, is het tijd om het eerder ongeziene gegevens te geven om te testen hoe het presteert. Vaak zijn de gegevens die gebruikt worden voor het testen een onderdeel van de trainingsgegevens die voor gebruik na de initiële training apart gezet zijn.
6. Modelparameters verfijnen en verbeteren
Het model is nu waarschijnlijk bijna klaar voor gebruik. Runs met testdatasets zouden zeer nauwkeurige resultaten moeten opleveren. Verbeteringen vinden plaats door extra training met specifieke gegevens - vaak uniek voor de activiteiten van een bedrijf - als aanvulling op de algemene gegevens die in de oorspronkelijke training zijn gebruikt.
7. Het model opstarten
Nu de resultaten geoptimaliseerd zijn, is het model klaar om ongeziene gegevens aan te pakken bij normaal productiegebruik. Wanneer het model live is, zullen projectteams gegevens verzamelen over hoe het model in praktijkscenario's presteert. Dit kan worden gedaan door de belangrijkste prestatiecijfers te controleren, zoals nauwkeurigheid, de algehele juistheid van de voorspellingen van het model, en recall, de verhouding van correct voorspelde positieve waarnemingen. Bedenk ook hoe de voorspellingen van het model de bedrijfsresultaten in de praktijk beïnvloeden - genereert het waarde, of het nu gaat om een hogere verkoop van blouses of betere diagnostiek?
Het uitvoeren van regelmatige audits en beoordelingen van de prestaties van het model kan helpen bij het identificeren van problemen of verstoringen die mogelijk zijn ontstaan na de implementatie en zijn essentieel om ervoor te zorgen dat het model effectief presteert en aan de gewenste doelstellingen voldoet.
Algoritmen zijn het rekenkundige onderdeel van een machine learning-project. Eenmaal getraind produceren algoritmen modellen met een statistische waarschijnlijkheid om een vraag te beantwoorden of een doel te bereiken. Dat doel kan het vinden van bepaalde kenmerken in afbeeldingen zijn, zoals 'identificeer alle katten', of het kan het opsporen van afwijkingen in gegevens zijn die kunnen duiden op fraude, spam of een onderhoudsprobleem met een machine. Weer andere algoritmen kunnen proberen voorspellingen te doen, zoals welke kledingstukken een koper ook leuk zou kunnen vinden op basis van wat er op dat moment in een winkelwagentje zit.
Enkele van de meest gebruikte algoritmen in machine learning zijn de volgende:
Meer dan neurale netwerken
Machine learning maakt gebruik van een breed scala aan algoritmen. Hoewel de hierboven besproken algoritmen de populairste zijn, zijn hier vijf minder gebruikelijke, maar nog steeds nuttige algoritmen.
| Gradient boosting | Bouwt modellen opeenvolgend op door zich te richten op eerdere fouten in de reeks. Nuttig voor fraude- en spamdetectie. |
| K-nearest neighbors (KNN) | Een eenvoudig maar effectief model dat gegevenspunten classificeert op basis van de labels van hun naaste buren in de trainingsgegevens. |
| Principal component analysis (PCA) | Verkleint de datadimensionaliteit door de belangrijkste kenmerken te identificeren. Handig voor visualisatie en gegevenscompressie voor bijvoorbeeld detectie van afwijkingen. |
| Q-learning | Gebruikt een agent die leert door vallen en opstaan, waarbij hij wordt beloond voor gewenste acties en wordt bestraft voor de verkeerde. |
| Support vector machines (SVM) | Creëert een hypervlak om gegevenspunten die tot verschillende klassen behoren effectief te scheiden, zoals bij beeldclassificatie. |
Dankzij machine learning kunnen organisaties inzichten uit hun gegevens halen die ze op een andere manier misschien niet kunnen vinden. Enkele van de meest voorkomende voordelen van het integreren van machine learning in processen zijn de volgende:
Machine learning-projecten zijn net zo effectief als het systeem en de middelen waarmee ze zijn gebouwd. Dat benadrukt de noodzaak om in een goede planning en voorbereiding te investeren.
Hier volgen enkele van de meest voorkomende uitdagingen voor machine learning-projecten:
Machine learning kan voor bijna elke sector en elke afdeling binnen een organisatie aanzienlijke voordelen opleveren. Als er cijfers worden gekraakt en gegevens bestaan, biedt machine learning een manier om de efficiëntie te verhogen en nieuwe soorten betrokkenheid te creëren. Veelvoorkomende gebruiksscenario's voor machine learning in diverse sectoren zijn onder andere:
Machine learning in Oracle Database biedt een groot aantal verschillende mogelijkheden en functies om het proces van machine learning te versnellen. Door gegevens binnen de database te bewaren, kunnen datawetenschappers hun workflow vereenvoudigen en de beveiliging verbeteren. Ze profiteren daarbij van meer dan 30 krachtige ingebouwde algoritmen, ondersteuning voor populaire programmeertalen zoals R, SQL en Python, geautomatiseerde machine learning-mogelijkheden en interfaces zonder code.
Voor organisaties met grote datasets maakt in-database machine learning met HeatWave MySQL het verplaatsen van gegevens naar een apart systeem voor machine learning overbodig. Dit kan de veiligheid verhogen, kosten verlagen en tijd besparen. HeatWave AutoML automatiseert de levenscyclus van machine learning, inclusief algoritmeselectie, intelligente datasampling voor training en selectie en afstemming van functies, waardoor vaak nog meer tijd en moeite wordt bespaard.
De beloning voor machine learning is de mogelijkheid om grote hoeveelheden gegevens snel en nauwkeurig te analyseren en interpreteren. Na training kunnen machine learning-modellen in seconden of minuten patronen, trends en inzichten ontdekken die mensen weken zouden kosten om te vinden, of die misschien zelfs nooit aan het licht zouden komen. Het resultaat is beter onderbouwde besluitvorming, betere probleemoplossing en de mogelijkheid om gegevensgestuurde voorspellingen te doen. Bovendien kunnen modellen voor machine learning routinematige processen automatiseren, wat tijd en middelen bespaart. Machine learning is zijn potentieel aan het realiseren om een revolutie op de werkplek teweeg te brengen en innovatie te stimuleren.
Machine learning is de sleutel tot het ontsluiten van waarde in uw gegevens en de eerste stap in een succesvol programma voor kunstmatige intelligentie.
Wat is het verschil tussen AI en ML?
Kunstmatige intelligentie is de naam voor het brede informaticaonderwerp dat zich richt op het bouwen en verfijnen van systemen om te denken zoals mensen. Machinaal leren is een onderdeel van dit gebied dat zich specifiek richt op het rekenkundige aspect van het leerproces. De twee termen worden vaak door elkaar gebruikt en staan voor vergelijkbare uitdagingen, maar ondanks dit verband staan ze los van elkaar.
Wat zijn de vier belangrijkste typen machine learning?
De vier typen machine learning zijn:
Is machine learning moeilijk te leren?
Zoals elk technisch vak is het leren van de ins en outs van machine learning een herhalend proces dat tijd en toewijding vereist. Een goed uitgangspunt voor machine learning is een basis in programmeertalen, zoals Python of R, samen met een goed begrip van statistiek. Veel elementen die betrokken zijn bij het beoordelen van machine learning-output vereisen inzicht in statistische concepten, zoals regressie, classificatie, fitting en parameters.
Wat is een voorbeeld van machine learning?
Een van de meest voorkomende voorbeelden van machine learning is een suggestie-engine. In e-commerce wordt dit gezien als een "misschien vind je dit ook leuk..." productsuggestie. In videostreamingmedia wordt dit gezien als ideeën voor wat je hierna moet bekijken. In deze gevallen neemt het algoritme de geschiedenis van een gebruiker en maakt voorspellingen voor wat de gebruiker interessant zou kunnen vinden. Hoe meer gegevenspunten de gebruiker toevoegt, hoe meer het algoritme de voorspellingen kan verfijnen.