Wat is machine learning?

Michael Chen | Content Strategist | 25 november 2024

Machine learning is de afgelopen jaren een begrip geworden omdat het concept zich heeft ontwikkeld van science fiction tot een belangrijke drijvende kracht achter de manier waarop bedrijven en organisaties informatie verwerken. Nu het tempo waarin gegevens worden gecreëerd exponentieel blijft groeien, zijn tools voor machine learning van cruciaal belang voor organisaties die patronen willen ontdekken, trends willen ontdekken en de meest winstgevende weg voorwaarts willen uitstippelen.

Hoe gebruikelijk is machine learning? Als u op een aanbeveling van een e-commercewebsite of streamingplatform hebt geklikt, op de hoogte bent gesteld van mogelijk misbruik van een creditcard of transcriptiesoftware hebt gebruikt, hebt u geprofiteerd van machine learning. Het wordt gebruikt in de financiële sector, gezondheidszorg, marketing, retail en vele andere sectoren om waardevolle inzichten uit gegevens te halen en processen te automatiseren.

Wat is machine learning?

Machine learning (ML) is een vorm van kunstmatige intelligentie die zich richt op het bouwen van systemen die leren en verbeteren naarmate ze meer gegevens verbruiken. Kunstmatige intelligentie is een bredere term die naar systemen of machines verwijst die menselijke intelligentie nabootsen. Ook al worden machine learning en AI vaak in één adem genoemd en worden de termen soms door elkaar gebruikt, ze betekenen niet hetzelfde.

Kortom, alle machine learning is AI, maar niet alle AI is machine learning.

Voornaamste conclusies

  • Machine learning is een onderdeel van AI.
  • De vier meest voorkomende vormen van machine learning zijn supervised, unsupervised, semi-supervised en versterkt.
  • Populaire soorten algoritmen voor machine learning zijn neurale netwerken, beslisbomen, clustering en willekeurige bossen.
  • Veel voorkomende toepassingen van machine learning in het bedrijfsleven zijn objectidentificatie en -classificatie, detectie van afwijkingen, documentverwerking en voorspellende analyse.

Uitleg van machine learning

Machine learning is een techniek die voorheen onbekende relaties in gegevens ontdekte door potentieel zeer grote gegevenssets te doorzoeken om patronen en trends te ontdekken die verder gaan dan eenvoudige statistische analyse. Machine learning maakt gebruik van geavanceerde algoritmen die zijn getraind om patronen in gegevens te identificeren, waardoor modellen worden gecreëerd. Deze modellen kunnen worden gebruikt om voorspellingen te doen en gegevens te categoriseren.

Merk op dat een algoritme niet hetzelfde is als een model. Een algoritme is een verzameling regels en procedures die worden gebruikt om een specifiek probleem op te lossen of een bepaalde taak uit te voeren, terwijl een model de uitvoer of het resultaat is van het toepassen van een algoritme op een gegevensreeks.

Voor de training is een algoritme nodig. Na de training komt een model.

Zo wordt machine learning op grote schaal gebruikt in de gezondheidszorg voor taken als analyse van medische beelden, voorspellende analyses en diagnose van ziekten. Machine-learningmodellen zijn bij uitstek geschikt voor het analyseren van medische beelden, zoals MRI-scans, röntgenfoto's en CT-scans, om patronen te identificeren en afwijkingen op te sporen die misschien niet zichtbaar zijn voor het menselijk oog of die een overwerkte diagnosticus misschien over het hoofd ziet. Machine-leersystemen kunnen ook symptomen, genetische informatie en andere patiëntgegevens analyseren om tests voor te stellen voor aandoeningen zoals kanker, diabetes en hartaandoeningen.

De belangrijkste kenmerken van machine learning zijn

  • Automatische detectie van patronen
  • Voorspelling van waarschijnlijke resultaten
  • Het aanmaken van bruikbare informatie
  • De mogelijkheid om zeer grote hoeveelheden gegevens te analyseren

Soorten machine learning

Er zijn vier hoofdtypen van machine learning. Elk heeft zijn eigen sterke punten en beperkingen, waardoor het belangrijk is om de juiste aanpak te kiezen voor de specifieke taak die moet worden uitgevoerd.

  • Onder toezicht staande machine learning is het meest voorkomende type. Hier leren gelabelde gegevens het algoritme welke conclusies het moet trekken. Net zoals een kind fruit leert herkennen door het te onthouden uit een plaatjesboek, wordt bij supervised learning het algoritme getraind door een dataset die al gelabeld is. Een voorbeeld van supervised machine learning is een spam e-mailfilter, waarbij het algoritme wordt getraind op een gelabelde gegevensset waarin elke e-mail als spam of geen spam wordt getagd. Het model leert van deze gelabelde voorbeelden en kan vervolgens voorspellen of nieuwe inkomende e-mails waarschijnlijk spam zijn of niet op basis van de patronen die het heeft geïdentificeerd. Voor dit type supervised learning is een menselijke expert nodig om de juiste antwoorden te geven door gegevens te labelen, zodat het algoritme kan leren en in de toekomst nauwkeurige voorspellingen kan doen.

    Merk op dat het doel hier niet is om te trainen met ongerepte gegevens. U wilt nabootsen wat het systeem in de echte wereld ziet - sommige spam is gemakkelijk te herkennen, maar andere voorbeelden zijn heimelijk of op het randje. Te schone gegevens leiden tot overfitting, wat betekent dat het model alleen andere ongerepte voorbeelden zal identificeren.
  • Onbeheerde machine learning maakt gebruik van een meer onafhankelijke benadering, waarbij een computer complexe processen en patronen leert identificeren zonder op eerder gelabelde gegevens te vertrouwen. Bij unsupervised machine learning wordt niet alleen getraind op gegevens zonder labels. Er is ook geen specifieke, gedefinieerde output, zoals of een e-mail waarschijnlijk spam is.

    Onbeheerde machine learning heeft de neiging om groeperingen van vergelijkbare gegevens te detecteren, waardoor clusters ontstaan. Eenmaal getraind, kan het model vergelijkbare patronen identificeren en die gegevens in de juiste groep plaatsen. Een veelgebruikte toepassing van onbeheerde machine learning zijn aanbevelingsmachines, die worden gebruikt in consumententoepassingen om 'klanten die dat kochten, kochten ook dit'-suggesties te geven. Als er ongelijke patronen worden gevonden, kan het algoritme deze identificeren als afwijkingen, wat nuttig is bij het opsporen van fraude.
  • Semi-supervised machine learning pakt het probleem aan dat er niet genoeg gelabelde gegevens zijn om een model volledig te trainen. U hebt bijvoorbeeld grote sets met trainingsgegevens, maar u wilt niet de tijd en kosten besteden aan het labelen van de hele set. Door een combinatie van supervised en unsupervised methoden te gebruiken, kunt u vaak een volledig getraind model krijgen. Het trainingsproces begint net als bij leren onder toezicht, waarbij gelabelde gegevens worden gebruikt om de eerste resultaten te verkrijgen en richtlijnen op te stellen voor het algoritme. Als de gelabelde gegevens op zijn, krijgt het halfgetrainde model de sets ongelabelde gegevens. Het gebruikt de training die het heeft en kijkt naar de ongelabelde gegevens, met als doel het toevoegen aan de gelabelde gegevensset. Als het model met hoge zekerheid een passend label kan vinden voor een steekproef, wordt die steekproef aan de gelabelde gegevens toegevoegd. Het leerproces begint opnieuw, maar nu met een grotere set gelabelde voorbeelden. Door iteratie worden meer monsters gelabeld met wat vaak pseudo-labels worden genoemd en kan het model verder worden verfijnd.

    Versterkende machine learning gebruikt, net als unsupervised machine learning, ongelabelde gegevenssets en laat algoritmen de gegevens evalueren. Versterkingsleren verschilt echter in die zin dat het naar een bepaald doel toewerkt in plaats van gegevens te onderzoeken om eventuele patronen te ontdekken. Met een doel voor ogen voert het algoritme een proces van trial-and-error uit. Elke zet krijgt positieve, negatieve of neutrale feedback, die het algoritme gebruikt om zijn algemene besluitvormingsproces aan te scherpen. Versterkingslerende algoritmen kunnen op macroniveau naar het projectdoel toewerken, zelfs als dat betekent dat ze op korte termijn met negatieve gevolgen te maken krijgen. Op die manier kan versterkingsleren meer complexe en dynamische situaties aan dan andere methoden, omdat het de context van het projectdoel het risico in keuzes laat beïnvloeden. Een computer leren schaken is een goed voorbeeld. Het algemene doel is om het spel te winnen, maar dat kan het opofferen van stukken vereisen als het spel doorgaat.

Wat voldoet het beste aan uw behoeften? De keuze voor een beheerde aanpak of een van de andere drie methoden hangt meestal af van de structuur en het volume van uw gegevens, het budget en de uren die u aan training kunt besteden en het gebruikscenario waarop u het uiteindelijke model wilt toepassen. Een suggestie voor een blouse die bij een rok past, kan onbelangrijk zijn. Een tumor missen, nog minder.

Hoe machine learning werkt

Zoals de naam al doet vermoeden, werkt machine learning door het ontwikkelen van computergebaseerde statistische modellen die worden geoptimaliseerd voor een specifiek doel door het analyseren van trainingsgegevens. Dit in tegenstelling tot de traditionele methode, waarbij programmeurs een vast algoritme creëren dat een probleem probeert op te lossen. Terwijl datasets door het ML-model worden gehaald, wordt de resulterende output beoordeeld op nauwkeurigheid, waardoor datawetenschappers het model kunnen aanpassen via een reeks vaststaande variabelen, hyperparameters genaamd, en algoritmisch aangepaste variabelen, leerparameters genaamd.

Omdat het algoritme zich aanpast terwijl het trainingsgegevens evalueert, traint het proces van blootstelling aan en berekening van nieuwe gegevens het algoritme om beter te worden in wat het doet. Het algoritme is het rekenkundige deel van het project, terwijl de term 'model' een getraind algoritme voor echte woordgebruiksgevallen kan worden gebruikt.

De omvang, middelen en doelen van machine-learningprojecten bepalen het meest geschikte pad, maar de meeste bestaan uit een reeks stappen.

1. Gegevens verzamelen en bundelen

Voor het trainen van ML-modellen zijn veel gegevens van hoge kwaliteit nodig. Het vinden ervan is soms moeilijk en het labelen ervan kan, indien nodig, veel middelen vergen. Nadat u potentiële gegevensbronnen hebt geïdentificeerd, evalueert u deze om de algehele kwaliteit te bepalen en de afstemming met de bestaande gegevensintegratie/opslagbronnen van het project. Deze bronnen vormen de trainingsbasis van een machine learning-project.

2. Selecteer een geschikt algoritme om het gewenste model te genereren

Afhankelijk van of men in het project supervised, unsupervised of semi-supervised learning wil gebruiken, kunnen datawetenschappers de meest geschikte algoritmen selecteren. Een eenvoudiger project met een gelabelde gegevensset kan bijvoorbeeld een beslisboom gebruiken, terwijl clusteren - gegevensmonsters verdelen in groepen van vergelijkbare objecten - meer rekenkracht vereist omdat het algoritme zonder supervisie werkt om het beste pad naar een doel te bepalen.

3. Gegevens verfijnen en voorbereiden voor analyse

De kans is groot dat binnenkomende gegevens nog niet klaar zijn. Gegevensvoorbereiding schoont datasets op om ervoor te zorgen dat alle records gemakkelijk tijdens de training kunnen worden opgenomen. De voorbereiding bestaat uit verschillende transformatietaken, zoals het instellen van datum- en tijdnotaties, het samenvoegen of splitsen van kolommen indien nodig, en het bepalen van andere formaatparameters, zoals het aantal toegestane significante cijfers in gegevens met reële getallen. Andere belangrijke taken zijn het verwijderen van dubbele records, ook wel dataduplicatie genoemd, en het identificeren en mogelijk verwijderen van uitschieters.

4. Het model door middel van training opleiden

Zodra het gewenste eindmodel is geselecteerd, begint het trainingsproces. Tijdens de training wordt een gecureerd gegevensbestand, gelabeld of ongelabeld, naar het algoritme gestuurd. In de eerste runs zijn de resultaten misschien niet geweldig, maar datawetenschappers zullen deze waar nodig aanpassen om de prestaties te verfijnen en de nauwkeurigheid te vergroten. Daarna krijgt het algoritme opnieuw gegevens te zien, meestal in grotere hoeveelheden om het nauwkeuriger af te stellen. Hoe meer gegevens het algoritme ziet, hoe beter het uiteindelijke model wordt in het leveren van de gewenste resultaten.

5. De prestaties en nauwkeurigheid van het model beoordelen

Nadat het model met voldoende nauwkeurigheid is getraind, is het tijd om het eerder ongeziene gegevens te geven om te testen hoe het presteert. Vaak zijn de gegevens die gebruikt worden voor het testen een onderdeel van de trainingsgegevens die voor gebruik na de initiële training apart gezet zijn.

6. Modelparameters verfijnen en verbeteren

Het model is nu waarschijnlijk bijna klaar voor gebruik. Runs met testdatasets zouden zeer nauwkeurige resultaten moeten opleveren. Verbeteringen vinden plaats door extra training met specifieke gegevens - vaak uniek voor de activiteiten van een bedrijf - als aanvulling op de algemene gegevens die in de oorspronkelijke training zijn gebruikt.

7. Het model opstarten

Nu de resultaten geoptimaliseerd zijn, is het model klaar om ongeziene gegevens aan te pakken bij normaal productiegebruik. Wanneer het model live is, zullen projectteams gegevens verzamelen over hoe het model in praktijkscenario's presteert. Dit kan worden gedaan door de belangrijkste prestatiecijfers te controleren, zoals nauwkeurigheid, de algehele juistheid van de voorspellingen van het model, en recall, de verhouding van correct voorspelde positieve waarnemingen. Bedenk ook hoe de voorspellingen van het model de bedrijfsresultaten in de praktijk beïnvloeden - genereert het waarde, of het nu gaat om een hogere verkoop van blouses of betere diagnostiek?

Het uitvoeren van regelmatige audits en beoordelingen van de prestaties van het model kan helpen bij het identificeren van problemen of verstoringen die mogelijk zijn ontstaan na de implementatie en zijn essentieel om ervoor te zorgen dat het model effectief presteert en aan de gewenste doelstellingen voldoet.

Hoe machine learning werkt

Machine learning-algoritmen

Algoritmen zijn het rekenkundige onderdeel van een machine learning-project. Eenmaal getraind produceren algoritmen modellen met een statistische waarschijnlijkheid om een vraag te beantwoorden of een doel te bereiken. Dat doel kan het vinden van bepaalde kenmerken in afbeeldingen zijn, zoals 'identificeer alle katten', of het kan het opsporen van afwijkingen in gegevens zijn die kunnen duiden op fraude, spam of een onderhoudsprobleem met een machine. Weer andere algoritmen kunnen proberen voorspellingen te doen, zoals welke kledingstukken een koper ook leuk zou kunnen vinden op basis van wat er op dat moment in een winkelwagentje zit.

Enkele van de meest gebruikte algoritmen in machine learning zijn de volgende:

  • Neurale netwerken: Het menselijk brein werkt door netwerken van knooppunten te maken die uiteenlopende functies uitvoeren, zoals het verwerken van beelden van onze ogen, het opslaan van herinneringen en het aansturen van onze spieren. Neurale computernetwerken zijn gemodelleerd naar deze hersenarchitectuur en creëren lagen van knooppunten die de relaties wegen tussen gegevens die ze hebben geanalyseerd en gegevens in aangrenzende knooppunten. Deze knooppunten werken als een netwerk en kunnen kenmerken van gegevens bepalen, zoals elementen in een afbeelding.
  • Lineaire regressie: Lineaire regressie-algoritmen nemen gegevenspunten en bouwen een wiskundige vergelijking op voor een lijn die de voorspelde uitkomsten het beste ondersteunt. Dit wordt ook wel de 'line of best fit' genoemd. Lineaire regressie werkt door variabelen in de vergelijking aan te passen om fouten in voorspellingen te minimaliseren. Een voorbeeld van lineaire regressie is te zien in de kindergeneeskunde, waarbij verschillende gegevenspunten de lengte en het gewicht van een kind op basis van historische gegevens kunnen voorspellen. Op dezelfde manier is BMI een lineaire regressie die lengte en gewicht aan het totale lichaamsvet probeert te koppelen. Omdat het algoritme een eenvoudige regel gebruikt voor de voorspellingen, kunnen de foutpercentages hoog zijn. Een BMI van 30 duidt bijvoorbeeld op obesitas. Dat geldt vaak voor het grote publiek, maar zeker niet voor krachtsporters zoals NFL linebackers.
  • Logistische regressie: Logistische regressie wordt het best gebruikt voor binaire uitkomsten en lijkt op lineaire regressie, maar dan met speciale overwegingen aan de grenzen van mogelijke gegevensbereiken. Een voorbeeld van logistische regressie is een pass/fail-analyse van de waarschijnlijkheid dat een potentiële klant wordt omgezet in een betalende klant. Logistische regressie wordt vaak gebruikt bij medische diagnoses. Plasmaglucoseconcentraties binnen een bepaald bereik worden bijvoorbeeld als een sterke indicator voor diabetes gebruikt. Logistische regressie kan ook worden gebruikt om te voorspellen of een e-mail spam is of niet, of dat een creditcardtransactie frauduleus is.
  • Clustering: Clusteren is een vorm van leren zonder toezicht waarbij een algoritme wordt blootgesteld aan ongelabelde gegevenssets waarin gegevens in verschillende groepen of clusters kunnen vallen. Terwijl het algoritme de trainingsgegevens evalueert, zoekt het naar patronen en overlappende details tussen de gegevens en maakt het groepen. Stel dat het algoritme kijkt naar de voedingswaarde van een grote verscheidenheid aan fruit. Het kan zijn dat citrusvruchten één groep vormen, bessen een andere en meloenen een derde. Dit maakt het makkelijker om te begrijpen wat elk cluster uniek maakt. Clusteren is bijzonder nuttig voor elk soort categorisatieproject, zoals marktsegmentatie.
  • Beslisbomen: Beslisbomen gebruiken supervised learning en basis als-dan progressies om voorspellingen te doen. Afhankelijk van de complexiteit van het project kunnen beslisbomen ideaal zijn als algoritmen die weinig middelen vereisen en eenvoudige resultaten opleveren. Als een universiteit bijvoorbeeld wil bepalen welke studenten Engels kunnen overslaan in het eerste jaar, kan ze een beslisboom gebruiken die eerst vraagt of de student vier jaar Engels heeft gevolgd op de middelbare school en zo ja, of de student minstens 3,6 GPA heeft behaald in die lessen. Een ander pad kan simpelweg vragen of de student beter dan een bepaalde drempel heeft gescoord op de onderdelen lezen, schrijven en taal van de SAT-test.
  • Random forests: Beslisbomen hebben op zichzelf hun beperkingen vanwege hun inherente starre workflows en de vereiste dat alle evaluatievragen beantwoord moeten worden. In ons voorbeeld van de beslisboom hierboven kan de universiteit vereisen dat beide voorwaarden waar zijn, ook al kan het voldoen aan slechts één voorwaarde voldoende zijn. En er kunnen andere factoren zijn om rekening mee te houden, zoals hoe goed een student presteerde op een toelatingsessay. Als alle drie de factoren vereist zouden zijn, zou de universiteit een probleem hebben met een 'overfit' van de beslisboom. Studenten die op alle drie de criteria goed scoorden, zouden het hoogstwaarschijnlijk goed doen zonder Engels 101 te volgen. Anderen die ook in orde zouden zijn, moeten de les echter nog steeds volgen. Random forests brengen verzamelingen beslisbomen samen die uitkomsten cumulatief wegen om een breder perspectief te bieden. Met random forests kunnen projecten nog steeds gebruik maken van de basisprincipes van beslisbomen, terwijl genuanceerde relaties tussen relevante gegevenspunten in overweging worden genomen. Onze universiteit zou deze drie criteria dus kunnen opsplitsen in afzonderlijke beslisbomen en dan gewichten gebruiken om te beslissen wie Engels 101 mag overslaan, misschien op basis van de bevinding dat hoge punten voor Engels op de middelbare school de meest voorspellende indicator is en dat de kwaliteit van de essay het minst voorspellend is.

Meer dan neurale netwerken

Machine learning maakt gebruik van een breed scala aan algoritmen. Hoewel de hierboven besproken algoritmen de populairste zijn, zijn hier vijf minder gebruikelijke, maar nog steeds nuttige algoritmen.

Gradient boosting Bouwt modellen opeenvolgend op door zich te richten op eerdere fouten in de reeks. Nuttig voor fraude- en spamdetectie.
K-nearest neighbors (KNN) Een eenvoudig maar effectief model dat gegevenspunten classificeert op basis van de labels van hun naaste buren in de trainingsgegevens.
Principal component analysis (PCA) Verkleint de datadimensionaliteit door de belangrijkste kenmerken te identificeren. Handig voor visualisatie en gegevenscompressie voor bijvoorbeeld detectie van afwijkingen.
Q-learning Gebruikt een agent die leert door vallen en opstaan, waarbij hij wordt beloond voor gewenste acties en wordt bestraft voor de verkeerde.
Support vector machines (SVM) Creëert een hypervlak om gegevenspunten die tot verschillende klassen behoren effectief te scheiden, zoals bij beeldclassificatie.

Voordelen van machine learning

Dankzij machine learning kunnen organisaties inzichten uit hun gegevens halen die ze op een andere manier misschien niet kunnen vinden. Enkele van de meest voorkomende voordelen van het integreren van machine learning in processen zijn de volgende:

  • Besluitvorming stroomlijnen en voorspellende analyse: Gegevensgestuurde beslissingen beginnen met gegevensanalyse. Dat is een voor de hand liggende verklaring, maar als het analyseproces handmatig wordt uitgevoerd, kost het veel tijd en middelen en levert het mogelijk niet genoeg inzichten op om de kosten te rechtvaardigen. Machine learning kan grote hoeveelheden gegevens doorkammen om trends en patronen te identificeren, zodat gebruikers zich kunnen richten op query's en bruikbare resultaten in plaats van op het optimaliseren van handmatige gegevensverwerking. Afhankelijk van de analysetool kan machine learning voorspellingen genereren en moeilijk te vinden inzichten in de gegevens identificeren, waardoor een diepere analyse en meer waarde voor de organisatie mogelijk worden.
  • Efficiëntie verhogen en taken automatiseren: machine learning ligt aan de basis van veel van de technologieën die werknemers efficiënter maken. Veel repetitieve taken met weinig cognitie, zoals spellingcontrole en het digitaliseren en classificeren van documenten, worden nu dankzij machine learning door computers gedaan.

    Machine learning blinkt ook uit in razendsnelle, actuele gegevensanalyse die uiterst moeilijk is voor mensen. Is die transactie frauduleus, of is die e-mail een phishing-scam? Machine learning-systemen kunnen het antwoord vaak binnen enkele seconden nauwkeurig bepalen en automatisch de juiste maatregelen nemen. Door ML-technologieën te combineren, kunnen voorspellingen op basis van gegevens worden gedaan, samen met uitleg over de factoren die de voorspelling hebben beïnvloed, zodat leidinggevenden de beste paden voor hun organisaties kunnen uitstippelen.
  • Personalisatie en innovatie in diensten: machine learning heeft door personalisatie een nieuwe deur geopend voor klantervaringen. Aankoopgeschiedenis, surfgeschiedenis, demografische gegevens en aanvullende informatie kunnen worden gebruikt om een individueel klantprofiel op te bouwen, dat vervolgens kan worden vergeleken met soortgelijke profielen om voorspellingen over de interesses van de klant te doen. Dit maakt suggesties, automatisch gegenereerde kortingen en andere vormen van persoonlijke betrokkenheid mogelijk om klanten te laten terugkeren.

    Met behulp van de hier besproken naamgeving: met beslisbomen kunnen klanten worden geclassificeerd. Misschien houdt de ene klant van vintage en tweedehands mode, terwijl een andere klant van moderne designerkleding houdt. Door elke klant met gelijksoortige klanten te clusteren, kan worden vastgesteld op welke producten ze waarschijnlijk zullen klikken en of ze erg gemotiveerd zijn door de verkoop. ML kan dan de beste aanbiedingen voor elke klant voorspellen door te kijken in welke clusters ze passen.

Uitdagingen van machine learning

Machine learning-projecten zijn net zo effectief als het systeem en de middelen waarmee ze zijn gebouwd. Dat benadrukt de noodzaak om in een goede planning en voorbereiding te investeren.

Hier volgen enkele van de meest voorkomende uitdagingen voor machine learning-projecten:

  • Gegevenskwaliteit: het gezegde 'rommel erin, rommel eruit' is van toepassing op machine learning. De kwaliteit van gegevens is cruciaal, zowel tijdens de trainingsfase als in de productie. Gegevens van hoge kwaliteit kunnen leiden tot nauwkeurigere resultaten die tijdig en efficiënt worden geleverd; gegevens van lage kwaliteit kunnen leiden tot onnauwkeurigheden en vervorming in de resulterende modellen. Merk op dat "kwaliteit" verschillende dingen kan betekenen voor verschillende projecten. Voor het trainen van beeldherkenningssystemen moeten de gegevens weerspiegelen wat het model in de echte wereld zal zien. Dat zijn onder andere onderwerpen in de schaduw, net buiten focus, en niet direct in de camera kijken. Voor trainingsdoeleinden geldt hoe meer gegevens lijken op wat het systeem in de productie zal zien, hoe beter.

    Om dit te bereiken, moeten organisaties gegevensbronnen analyseren, gegevenssets omzetten naar consistente en compatibele indelingen, processen voor opschoning en ontdubbeling uitvoeren, gebruikers trainen in processen en protocollen, en tools integreren om de kwaliteit en geschiktheid van de gegevens te beoordelen.
  • Bias: gegevens kunnen dan wel schoon zijn, maar zijn ze vrij van vooroordelen? Stel dat u een machine learning-systeem wilt trainen om honden op foto's te detecteren, en u heeft een robuuste gegevensset met alleen Labrador- en poedelfoto's. Na training is het model goed in het detecteren van deze honden. U zou kunnen zeggen dat het vooringenomen is om dit te doen. Maar wanneer een foto van een bulldog wordt getoond, zegt het dat het geen hond kan vinden. Natuurlijk niet, daarvoor was het immers niet getraind.

    Het maken van de juiste trainingsdataset is een van de lastigste en duurste aspecten van het maken van ML tools die werken zoals u dat wilt. Het probleem om bepaalde soorten gegevens te vinden, kan vaak een onbedoelde bron van vooringenomenheid genereren. De Tibetaanse mastiff is bijvoorbeeld een zeldzaam ras, maar de hond lijkt op een oranjebruine Newfoundland. Als er dus onvoldoende gegevensmonsters zijn van de Tibetaanse mastiff, zal het niet al te verrassend zijn als een ML-model hem als een Newfoundland identificeert.
  • Gegevensbeveiliging: ondanks de vele voordelen kan machine learning vele beveiligingsproblemen met zich meebrengen. De gegevens die in ML-analyses worden gebruikt, kunnen gevoelige of bedrijfseigen informatie bevatten die niet voor openbare consumptie bedoeld is. Op dezelfde manier kunnen gegevens het doelwit zijn van een cyberaanval die bedoeld is om het model te vergiftigen en verkeerde informatie in de resultaten in te bouwen. Stappen voor het voorbereiden van gegevens kunnen kwetsbaarheden in de beveiliging blootleggen en aanpakken, vooral wanneer gegevenssets tussen systemen worden geëxporteerd of geïmporteerd. Om beveiligingsproblemen te beperken, moeten bedrijven een reeks beveiligingsbeleidsregels, -procedures en -controles toepassen, waaronder praktische training van personeel.
  • Gegevensprivacy: ervoor zorgen dat gevoelige gegevens niet worden bekendgemaakt, is een voortdurende inspanning. Gegevensanonimisering is een opkomende praktijk, maar is niet altijd beschikbaar of toereikend. Stel bijvoorbeeld dat een bedrijf een dienst wil aanbieden waarmee zijn zakelijke klanten op basis van gegevens die het heeft verzameld meer te weten kunnen komen over hun eindgebruikers. Dit soort informatie moet worden beschermd en gebruikt in overeenstemming met de wettelijke vereisten, en bedrijven moeten zorgvuldig nadenken over nieuwe bedreigingsvectoren die kunnen proberen de gegevens via een ML-systeem te compromitteren.

Machine learning, praktische toepassingen

Machine learning kan voor bijna elke sector en elke afdeling binnen een organisatie aanzienlijke voordelen opleveren. Als er cijfers worden gekraakt en gegevens bestaan, biedt machine learning een manier om de efficiëntie te verhogen en nieuwe soorten betrokkenheid te creëren. Veelvoorkomende gebruiksscenario's voor machine learning in diverse sectoren zijn onder andere:

  • Detailhandel: voor retailers kan machine learning helpen bij de bedrijfsvoering, de verkoop en veel meer. Op operationeel niveau kan machine learning gegevens van de supply chain analyseren om voorraadbeheer te optimaliseren en mogelijke vertragingen vroegtijdig te identificeren. Om de verkoop te helpen verhogen, kan machine learning de zoek- en bladergeschiedenis van een klant samen met demografische gegevens onderzoeken om een profiel op te bouwen dat als basis dient voor verdere betrokkenheid.
  • Streaming media: net als retailers kunnen zowel audio- als videostreamers klantprofielen opbouwen op basis van de betrokkenheid en browsegeschiedenis van een gebruiker en demografische gegevens. Dit profiel kan vervolgens worden gebruikt voor aanbevelingsmachines die helpen bij het ontdekken en verdere betrokkenheid.
  • Financiën: een van de krachtigste, maar eenvoudigste toepassingen van machine learning is fraudedetectie voor de financiële sector. Met machine learning kunnen algoritmes algemeen accountgedrag identificeren en vervolgens afwijkend gedrag markeren voor mogelijk fraudeonderzoek.
  • Gezondheidszorg: de gezondheidszorg is klaar voor het gebruik van machine learning in bijna elk facet van de bedrijfsvoering. Patiëntprofielen via elektronische patiëntendossiers kunnen mogelijke problemen op voorhand identificeren op basis van patronen vergeleken met soortgelijke demografische gegevens. Gegevens van Internet of Things-apparaten, zoals een slimme medicijndispenser, kunnen snel fouten detecteren. Daarnaast bieden operationele gegevens, zoals het voetgangersverkeer van patiënten of het gebruik van ziekenhuisbedden, inzicht in de schaalbaarheid van het personeel.

Snellere en veiligere machine learning met Oracle

Machine learning in Oracle Database biedt een groot aantal verschillende mogelijkheden en functies om het proces van machine learning te versnellen. Door gegevens binnen de database te bewaren, kunnen datawetenschappers hun workflow vereenvoudigen en de beveiliging verbeteren. Ze profiteren daarbij van meer dan 30 krachtige ingebouwde algoritmen, ondersteuning voor populaire programmeertalen zoals R, SQL en Python, geautomatiseerde machine learning-mogelijkheden en interfaces zonder code.

Voor organisaties met grote datasets maakt in-database machine learning met HeatWave MySQL het verplaatsen van gegevens naar een apart systeem voor machine learning overbodig. Dit kan de veiligheid verhogen, kosten verlagen en tijd besparen. HeatWave AutoML automatiseert de levenscyclus van machine learning, inclusief algoritmeselectie, intelligente datasampling voor training en selectie en afstemming van functies, waardoor vaak nog meer tijd en moeite wordt bespaard.

De beloning voor machine learning is de mogelijkheid om grote hoeveelheden gegevens snel en nauwkeurig te analyseren en interpreteren. Na training kunnen machine learning-modellen in seconden of minuten patronen, trends en inzichten ontdekken die mensen weken zouden kosten om te vinden, of die misschien zelfs nooit aan het licht zouden komen. Het resultaat is beter onderbouwde besluitvorming, betere probleemoplossing en de mogelijkheid om gegevensgestuurde voorspellingen te doen. Bovendien kunnen modellen voor machine learning routinematige processen automatiseren, wat tijd en middelen bespaart. Machine learning is zijn potentieel aan het realiseren om een revolutie op de werkplek teweeg te brengen en innovatie te stimuleren.

Machine learning is de sleutel tot het ontsluiten van waarde in uw gegevens en de eerste stap in een succesvol programma voor kunstmatige intelligentie.

Veelgestelde vragen over machine learning

Wat is het verschil tussen AI en ML?

Kunstmatige intelligentie is de naam voor het brede informaticaonderwerp dat zich richt op het bouwen en verfijnen van systemen om te denken zoals mensen. Machinaal leren is een onderdeel van dit gebied dat zich specifiek richt op het rekenkundige aspect van het leerproces. De twee termen worden vaak door elkaar gebruikt en staan voor vergelijkbare uitdagingen, maar ondanks dit verband staan ze los van elkaar.

Wat zijn de vier belangrijkste typen machine learning?

De vier typen machine learning zijn:

  • Supervised. Bij supervised learning worden gelabelde gegevenssets gebruikt om het algoritme naar een specifiek doel te trainen.
  • Unsupervised. Unsupervised learning gebruikt ongelabelde gegevenssets die het algoritme de ruimte geven om patronen te verkennen en te identificeren.
  • Semi-supervised. Semi-supervised learning gebruikt gelabelde gegevenssets voor initiële training om de algemene parameters van het project vast te stellen. Vervolgens gebruikt het algoritme die training om ongelabelde monsters te beoordelen om te zien of het ze met een hoge waarschijnlijkheid kan labelen. Dat proces kan worden herhaald, waarbij de verzameling gelabelde monsters bij elke herhaling groter wordt.
  • Reinforcement. Reinforcement learning werkt op dezelfde manier als unsupervised learning, omdat het ongelabelde gegevenssets gebrukt. Reinforcement learning richt zich echter op het leren van het beste pad om een specifiek doel te bereiken door middel van positieve, negatieve en neutrale feedback, in plaats van het zoeken naar patronen.

Is machine learning moeilijk te leren?

Zoals elk technisch vak is het leren van de ins en outs van machine learning een herhalend proces dat tijd en toewijding vereist. Een goed uitgangspunt voor machine learning is een basis in programmeertalen, zoals Python of R, samen met een goed begrip van statistiek. Veel elementen die betrokken zijn bij het beoordelen van machine learning-output vereisen inzicht in statistische concepten, zoals regressie, classificatie, fitting en parameters.

Wat is een voorbeeld van machine learning?

Een van de meest voorkomende voorbeelden van machine learning is een suggestie-engine. In e-commerce wordt dit gezien als een "misschien vind je dit ook leuk..." productsuggestie. In videostreamingmedia wordt dit gezien als ideeën voor wat je hierna moet bekijken. In deze gevallen neemt het algoritme de geschiedenis van een gebruiker en maakt voorspellingen voor wat de gebruiker interessant zou kunnen vinden. Hoe meer gegevenspunten de gebruiker toevoegt, hoe meer het algoritme de voorspellingen kan verfijnen.