55 machine learning engineer vragen om de perfecte kandidaat te vinden

Deel

Verschillende sectoren zijn de afgelopen jaren begonnen met het gebruik van machine learning (ML) en kunstmatige intelligentie (AI). Enkele voorbeelden zijn gezondheidszorg, detailhandel, financiën, banken en productie.

Voor aanwervingsmanagers betekent dit dat ze in verschillende sectoren moeten concurreren om bekwame ML- en AI-experts aan te trekken, wat de taak nog uitdagender maakt. En het vinden van het juiste talent (datawetenschappers, machine learning engineers, enz.) is nog nooit zo belangrijk geweest.

Daarom is het zo cruciaal om de juiste machine learning engineer sollicitatievragen te stellen, zodat je alleen de beste machine learning engineer kandidaten aanneemt - en dit te combineren met andere methoden om de expertise en kennis van kandidaten nauwkeurig te beoordelen, zoals vaardigheidstests.

Maak uw leven gemakkelijker door te kiezen voor een aanbevolen vaardigheidstestplatform zoals TestGorilla en gebruik onze Data Science en Machine Learning testen om sollicitanten te evalueren.

Kandidaten die goed presteren op deze tests begrijpen de grondbeginselen van data science en machine learning volledig. Ze hebben ook de nodige kennis van neurale netwerken, programmeren, statistiek en deep learning.

In dit artikel hebben we ook een lijst samengesteld met 55 machine learning engineer sollicitatievragen die u kunt gebruiken in uw sollicitatiegesprekken of kunt opnemen als aangepaste vragen in assessments.

We hebben ook voorbeeldantwoorden gegeven en uitgelegd waarom deze antwoorden belangrijk zijn.

Inhoudsopgave

1. Definieer deep learning. Waarin verschilt het van andere algoritmen voor machinaal leren?

Deep learning is een bepaalde vorm van machinaal leren op basis van neurale netwerken. Hierbij worden neurowetenschappelijke principes en backpropagatie gebruikt om grote verzamelingen gegevens, zowel semi-gestructureerde als ongelabelde, correct te modelleren.

Samengevat is deep learning het mechanisme waarmee een algoritme leert zonder supervisie. Het leert gegevensrepresentaties door middel van neurale netwerken.

2. Is modelnauwkeurigheid of modelprestatie belangrijker voor jou?

Hier test u het inzicht van de kandidaat in de nuances van modelprestaties. Over het algemeen richten vragen over machine learning zich op details. Nauwkeurigere modellen kunnen echter slechter presteren bij het doen van voorspellingen.

Een kandidaat moet begrijpen dat de nauwkeurigheid van een model slechts een aspect is van hoe goed het model presteert.

3. Leg uit hoe je ervoor zou zorgen dat je een model niet overfit.

Uw kandidaat moet laten zien dat hij/zij de drie belangrijkste routes begrijpt om een model niet te overfitten.

Om overfitting van een model te voorkomen, kan een datawetenschapper

  • Het model vereenvoudigen, of een deel van de ruis verwijderen door de variantie te verminderen

  • Tactieken voor kruisvalidatie gebruiken, zoals k-folds

  • Regularisatietactieken gebruiken, zoals LASSO, om parameters te straffen die overfitting mogelijk maken.

4. Wat is een hashtabel?

Een hashtabel is een gegevensstructuur die een associatieve matrix maakt. U koppelt een sleutel aan bepaalde waarden met behulp van een hashfunctie. Hashtabellen worden meestal gebruikt voor database-indexering.

5. Leg uit wat volgens jou de meest waardevolle gegevens van ons bedrijf zijn.

Met deze vraag test u hoeveel uw kandidaat weet over uw bedrijfsmodel en de industrie in het algemeen.

U controleert ook of ze begrijpen hoe gegevens overeenkomen met uw bedrijfsresultaten en hoe ze deze kennis in hun werk zullen toepassen. Begrijpen ze de problemen die uw bedrijf met data wil oplossen?

6. Kun je een paar papers over machine learning noemen die je onlangs hebt gelezen of uitleggen hoe je de nieuwste ontwikkelingen op het gebied van machine learning volgt?

De beste kandidaten blijven op de hoogte van de nieuwste wetenschappelijke rapporten over machinaal leren. Zoek naar tijdschriften met een goede referentie, zoals Nature.

7. Leg uit hoe je AlphaGo's aanpak bij Go, die Lee Sedol versloeg, zou reproduceren.

Het jaar 2016 was belangrijk voor de geschiedenis van deep learning en machinaal leren. Toen versloeg AlphaGo, een computerprogramma dat Go speelt, de top menselijke Go-speler, Lee Sedol.

Uw kandidaat moet laten zien dat hij of zij begrijpt hoe AlphaGo dit heeft bereikt. Het maakte gebruik van Monte-Carlo boomzoeken met diepe neurale netwerken. Deze netwerken worden getraind door onder toezicht te leren van menselijke spellen en zelf te spelen.

8. Denk je dat kwantumcomputing invloed zal hebben op machinaal leren? Hoe?

Hier test u de interesse van uw kandidaat in machinaal leren op een hoog niveau en niet alleen hun vermogen om het te implementeren in specifieke taken.

Er zijn verschillende belangrijke doorbraken geweest op het gebied van kwantumcomputing. Uw beste kandidaten zullen interesse tonen in het vakgebied en kunnen praten over het idee dat sommige algoritmen betere resultaten kunnen opleveren op kwantumcomputers.

9. Welke onderzoekservaring heb je op het gebied van machine learning?

Kandidaten met gepubliceerde onderzoekspapers kunnen hier echt opvallen - dit getuigt van waardevolle wetenschappelijke en academische ervaring.

10. Welke datatypes ondersteunt JSON?

Met deze vraag test u de kennis van uw kandidaat over JSON. Dit is een populair bestandsformaat dat met JavaScript wordt verpakt.

Uw kandidaat moet laten zien dat hij/zij de zes basis JSON-gegevenstypen begrijpt: objecten, strings, arrays, booleans, getallen en nulwaarden.

11. Noem enkele verschillen tussen een array en een gekoppelde lijst.

Een gelinkte lijst is een geordende groep elementen waarbij de elementen met elkaar verbonden zijn door middel van pointers. Een gelinkte lijst groeit eerder organisch.

Een array moet gedefinieerd worden voor groei. Een array gaat ook uit van hetzelfde voor alle elementen, terwijl de gelinkte lijst dat niet doet. En tot slot is het schudden van een array complex en kostbaar. Bij een gelinkte lijst volstaat het om de pointers te veranderen.

12. Leg uit hoe je een logistisch regressiemodel zou beoordelen.

Uw kandidaat moet laten zien dat hij of zij een goed begrip heeft van veelvoorkomende logistische regressiedoelen, zoals voorspelling, classificatie en meer. Zorg ervoor dat ze kunnen praten over use cases en voorbeelden.

13. Wanneer moet je classificatie gebruiken in plaats van regressie?

Zorg ervoor dat uw kandidaat begrijpt dat regressie continue resultaten geeft, terwijl classificatie een duidelijke waarde geeft aan strikte categorieën.

U zou classificatie boven regressie kiezen als u wilt dat de output laat zien dat datapunten binnen specifieke categorieën horen.

14. Hoe zou je een beslisboom snoeien?

Uw kandidaat moet laten zien dat hij snoeien begrijpt.

Snoeien van een beslisboom verwijst naar het proces van het verwijderen van takken met een zwakke voorspellende kracht. Dit vereenvoudigt het model en verhoogt de voorspellende nauwkeurigheid.

Voorbeelden zijn kostencomplexiteitsnoei en verminderde foutsnoei, waarbij de laatste de eenvoudigste versie van snoeien is. Hierbij snoeit u door elke knoop te vervangen, zolang dit de voorspellende nauwkeurigheid niet vermindert.

15. Wat is je favoriete algoritme? Geef me een eenvoudige uitleg.

Dit test het vermogen van uw kandidaat om technische details in lekentaal uit te leggen. Dit is belangrijk voor een goede communicatie tussen technisch en niet-technisch personeel.

Zoek kandidaten die verschillende algoritmes kunnen uitleggen op een manier die eenvoudig en gemakkelijk te begrijpen is.

16. Leg het verschil uit tussen supervised en unsupervised machine learning.

Het verschil tussen supervised en unsupervised machine learning is de manier waarop gelabelde gegevens worden behandeld. Niet-gesuperviseerd leren heeft geen labelgegevens nodig, terwijl gesuperviseerd leren die wel nodig heeft.

17. Wat is een Fouriertransformatie?

Uw kandidaten moeten aangeven dat een Fouriertransformatie een methode is die functies ontbindt in ruimtelijke of temporele frequentiefuncties.

Het is een typische manier om kenmerken uit audiosignalen en andere tijdreeksen te halen.

18. Welke evaluatiemethoden zou je gebruiken om te beoordelen of een model voor machinaal leren effectief is?

U bent op zoek naar kandidaten die kunnen uitleggen dat ze kruisvalidatietechnieken zouden gebruiken om de dataset te segmenteren of op te splitsen in test- en trainingssets. Vervolgens passen ze een verzameling prestatiemetingen toe.

Wat hier cruciaal is, is dat uw kandidaten laten zien dat ze begrijpen dat het nauwkeurig meten van modellen afhangt van het kiezen van de juiste maatstaven voor het juiste citaat.

19. Schrijf de pseudocode op voor een parallelle implementatie van het algoritme van je keuze.

Deze vraag helpt u om te zien of uw kandidaat code kan schrijven terwijl hij denkt in parallellisme.

Het laat zien of ze kunnen omgaan met concurrency in programmeerimplementaties die omgaan met big data.

20. Is het mogelijk om twee strings, A en B, die even lang zijn op een gemeenschappelijk punt door te knippen zodat het eerste deel van A en het tweede deel van B een palindroom vormen?

Hoewel dit een software engineering vraag is, is het nuttig om te testen of uw kandidaten kennis hebben van datastructuren en algoritmen. Er zijn verschillende manieren om te controleren op palindromen.

21. Leg uit hoe je een aanbevelingssysteem voor de klanten van ons bedrijf zou implementeren.

Dit is een kans voor uw kandidaten om te laten zien dat ze onderzoek hebben gedaan naar uw bedrijf en uw branche.

Een sterke kandidaat zou laten zien dat hij/zij begrijpt wat de inkomsten van uw bedrijf bepaalt en welke soorten klanten uw bedrijf heeft. En ze zouden kunnen uitleggen hoe ze modellen voor machinaal leren zouden kunnen implementeren om de problemen van uw bedrijf op te lossen.

22. Waar haal je doorgaans datasets vandaan?

Dit is nog een vraag om te testen of uw kandidaat echt geïnteresseerd is in machinaal leren.

Iemand die echt van machinaal leren houdt, heeft waarschijnlijk zijn eigen nevenprojecten opgezet en weet daarom waar hij goede datasets kan vinden. Dit soort vragen helpt u om gepassioneerde ingenieurs te onderscheiden van ingenieurs die alleen maar werken voor een salaris.

23. Heb je modellen getraind voor je plezier? Welke hardware of grafische verwerkingseenheden heb je gebruikt?

Deze vraag helpt u om kandidaten te vinden die in hun vrije tijd aan machine learning-projecten hebben gewerkt, niet alleen in zakelijke banen. Het test of uw kandidaten GPU-tijd effectief kunnen indelen en of ze weten hoe ze projecten moeten inzetten.

24. Hoe zou je de 'Netflix Prize'-wedstrijd aanpakken?

Bekwame kandidaten zullen op de hoogte zijn van de Netflix Prize, een wedstrijd waarbij Netflix een prijs van 1 miljoen dollar uitloofde aan iedereen die een beter algoritme voor collaboratief filteren kon ontwikkelen.

BellKor (de winnaars) gebruikte verschillende methoden om het algoritme met 10% te verbeteren. Sterke kandidaten zullen zich niet alleen de wedstrijd herinneren, maar ook de oplossing die BellKor creëerde, wat zou aantonen dat ze al lange tijd gepassioneerd zijn over machine learning.

25. Leg uit hoe primaire en vreemde sleutels met elkaar verbonden zijn in SQL.

Machine learning-ingenieurs moeten bedreven zijn in veel belangrijke gegevensindelingen, waaronder SQL. Antwoorden op deze vraag laten zien of uw kandidaat SQL-databases kan manipuleren.

Ze moeten uitleggen dat ze tabellen kunnen matchen en joinen met behulp van foreign keys en de primaire sleutel van een overeenkomstige tabel. Ze moeten u ook uitleggen hoe ze SQL-tabellen zouden opzetten.

26. Heb je Spark of andere big data tools gebruikt?

Spark is de meest gebruikte big data tool. Maar als uw bedrijf een andere tool gebruikt, noem die dan gerust in plaats van Spark.

Deze vraag helpt u om kandidaten te identificeren die bekend zijn met deze tools en snel aan de slag kunnen. Antwoorden laten u ook zien wie tijd heeft besteed aan het onderzoeken en vertrouwd maken met uw bedrijf voor het sollicitatiegesprek.

27. Wanneer denk je dat ensembletechnieken praktisch kunnen zijn?

Hier test u het vermogen van uw kandidaat om het voorspellend vermogen te vergroten. Ensemble technieken combineren verschillende leeralgoritmen om een verbeterde voorspellende prestatie te creëren.

Deze aanpak creëert een robuust model dat doorgaans bestand is tegen kleine veranderingen in gegevens die de voorspellingsnauwkeurigheid kunnen beïnvloeden. Ervaren kandidaten kunnen voorbeelden noemen van ensemblemethoden, zoals de 'emmer van modellen'-methode, bagging, boosting en meer.

28. Leg het verschil uit tussen een discriminatief en een generatief model.

De kandidaat moet begrijpen dat een discriminatief model alleen het verschil tussen gegevenscategorieën leert, terwijl een generatief model gegevenscategorieën leert.

Ze moeten ook aangeven dat voor classificatietaken een discriminatief model meestal beter zal presteren dan een generatief model.

29. Waarin verschilt L1-regularisatie van L2?

L1 regularisatie is schaarser, omdat variabelen een 0 of 1 (binair) krijgen. L2 regularisatie verspreidt fouten over termen.

30. Wat is precisie? Wat is recall?

Precisie is het aantal accurate positieven dat door het model wordt geclaimd in vergelijking met het aantal geclaimde positieven. Dit wordt ook positieve voorspellende waarde genoemd.

Recall is het aantal geclaimde positieven in vergelijking met het aantal positieven dat in de gegevens is gevonden. Dit wordt ook wel de true positive rate genoemd.

31. Leg de afweging tussen variantie en bias uit.

Variantfout treedt op als het leeralgoritme te complex is. Dit kan leiden tot een te gevoelig algoritme, waardoor uw model te veel gegevens aanpast.

Biasfouten treden op als het leeralgoritme te eenvoudige veronderstellingen heeft. Dit creëert het tegenovergestelde probleem van de variantiefout. Een biasfout kan leiden tot generalisatie van kennis van de trainingsset naar de testset en tot een model dat te weinig past bij de gegevens. Dit zou leiden tot een model dat geen hoge voorspellende nauwkeurigheid kan hebben.

Uw kandidaat moet laten zien dat hij/zij begrijpt dat het nooit een goed idee is om een model te hebben met een hoge variantie of een hoge bias. Er moet een afweging zijn tussen de twee.

32. Wat zijn enkele van uw favoriete API's om te verkennen?

Deze vraag test of uw kandidaat heeft gewerkt met externe gegevensbronnen. Als dat zo is, hebben ze waarschijnlijk een aantal favoriete API's. De beste kandidaten zullen u vertellen wat ze van bepaalde API's vinden en details geven van pipelines en experimenten die ze hebben uitgevoerd.

33. Leg uit hoe XML zich verhoudt tot CSV's in termen van grootte.

Deze vraag test of uw kandidaat in staat is om te gaan met het verwerken van rommelige gegevensformaten.

XML neemt veel meer ruimte in beslag dan CSV. XML gebruikt tags om een boomstructuur te creëren voor sleutelwaardeparen.

CSV's gebruiken scheidingstekens om categorieën van gegevens te maken en deze gegevens in kolommen te organiseren. Meestal zal een ingenieur XML-gegevens willen verwerken tot een bruikbare CSV.

34. Als je een onevenwichtige dataset zou krijgen, hoe zou je er dan mee omgaan?

Hier test u het inzicht van de kandidaat in de schade die onevenwichtige datasets kunnen veroorzaken.

Uw kandidaten moeten laten zien hoe ze deze schade in evenwicht zouden brengen. Ze kunnen verschillende tactieken gebruiken, zoals het opnieuw bemonsteren van de dataset, het verzamelen van meer gegevens en het proberen van een ander algoritme.

35. Wat vind je van het GPT-3 model?

Dit is een andere vraag die beoordeelt of uw kandidaat de laatste trends en het laatste nieuws op het gebied van machine learning volgt.

GPT-3, ontwikkeld door OpenAI, is een nieuw taalgeneratiemodel dat zowel conversaties op menselijk niveau kan genereren (zo groot als romans) als code kan creëren uit natuurlijke taal.

Als uw kandidaten gepassioneerd zijn over machine learning, zullen ze waarschijnlijk veel te zeggen hebben over GPT-3.

36. Wat vindt u van de manier waarop Google gegevens traint voor zelfrijdende auto's?

Hier test u het inzicht van uw kandidaat in verschillende methoden voor machinaal leren.

Momenteel gebruikt Google Recaptcha om gelabelde gegevens te vinden op verkeersborden en winkelpuien.

37. Hoe zou je een datapijplijn bouwen?

Dit zou algemene kennis moeten zijn voor machine learning-engineers. Uw kandidaat moet bekend zijn met tools voor het bouwen van datapijplijnen, zoals Apache Airflow. Ze moeten ook diepgaande kennis hebben van waar modellen en pijplijnen kunnen worden gehost, zoals bijvoorbeeld AWS, Azure, Google Cloud, enzovoort.

U wilt dat uw kandidaat u vertelt over zijn of haar ervaring met het bouwen en schalen van een goed werkende datapijplijn.

38. Noem enkele bibliotheken voor datavisualisatie die je hebt gebruikt. Welke tools voor datavisualisatie zijn volgens jou de beste?

Hier beoordeelt u het vermogen van uw kandidaat om gegevens correct te visualiseren, evenals hun kennis van populaire tools, zoals Plot.ly, Tableau, Python's seaborn en meer.

39. Wat zou je doen als je ontbrekende of beschadigde gegevens ontdekte in een dataset?

Uw kandidaat moet aangeven dat hij/zij zou zoeken naar de ontbrekende of beschadigde gegevens en deze vervolgens zou vervangen door een andere waarde of deze kolommen of rijen zou laten vervallen.

40. Definieer de F1-score. Hoe zou je die gebruiken?

Uw kandidaat moet aangeven dat de F1-score een manier is om de prestaties van een model te meten en dat hij of zij deze zou gebruiken bij classificatietests.

41. Leg het verschil uit tussen Type I en Type II fouten.

Dit zou een heel eenvoudige vraag moeten zijn voor machine learning ingenieurs, maar het is verstandig om af en toe een makkelijke vraag te stellen om er zeker van te zijn dat uw kandidaat de basis begrijpt.

Type I fouten zijn fout-positieve resultaten. Er wordt beweerd dat er iets is gebeurd terwijl dat niet zo is. Type II fout is vals negatief. Er wordt beweerd dat er niets is gebeurd terwijl dat wel het geval was.

42. Hoe werkt een ROC-curve?

Uw kandidaat moet uitleggen dat de ROC-curve een grafiek is waarin twee parameters worden uitgezet, namelijk het percentage ware en fout-positieve uitslagen.

Een belangrijk aspect om hier op te letten is of ze begrijpen dat een ROC-curve gewoonlijk wordt gebruikt als een stand-in voor de afweging tussen fout-positieven, d.w.z. de waarschijnlijkheid van vals alarm, versus fout-positieven, d.w.z. hoe gevoelig het model is.

43. Leg uit hoe jouw vaardigheden op het gebied van machine learning ons bedrijf zullen helpen winst te genereren.

Dit is een goede vraag om te zien of uw kandidaat uw bedrijf heeft onderzocht. Een goede machine learning engineer begrijpt dat zijn vaardigheden alleen goed zijn als ze bedrijfsresultaten opleveren.

Laten we zeggen dat u iemand aanneemt voor Netflix. In dat geval zou uw kandidaat kunnen zeggen dat door het ontwikkelen van een nauwkeuriger aanbevelingsmodel, gebruikers meer tevreden zouden zijn met de programma's die ze kijken, wat zou leiden tot langdurige gebruikersbinding en winst.

44. Geef me voorbeelden van je favoriete modellen voor machinaal leren.

Dit is nog een vraag om te beoordelen of uw kandidaat meer heeft dan alleen een 'on-the-job' interesse in machine learning.

Een gepassioneerde machine learning engineer zal verschillende voorbeelden geven van machine learning-modellen die hij leuk vindt - en goed weten hoe elk model is geïmplementeerd.

45. Wat vindt u van ons dataproces?

Met dit soort vragen kunt u zien of uw kandidaat een waardevolle aanvulling kan zijn op het huidige team.

Een goede kandidaat zal laten zien dat hij of zij begrijpt waarom uw gegevensproces op een bepaalde manier is opgezet. Ze zullen u constructieve, inzichtelijke feedback geven.

46. Wat zijn bij machine learning de drie fasen voor het bouwen van modellen?

Dit is een eenvoudige vraag, maar het zorgt ervoor dat uw kandidaat de basis kent.

De drie stadia van modelbouw bij machinaal leren zijn:

  • Modelbouw, waarbij de ingenieur een geschikt algoritme kiest en het traint volgens de criteria die hem zijn gegeven

  • Model testen, waarbij de ingenieur testgegevens gebruikt om de nauwkeurigheid van het model te controleren

  • Modeltoepassing, waarbij de ingenieur na het testen de nodige wijzigingen aanbrengt en het model in realtime begint te gebruiken.

Het is ook een goed teken als uw kandidaat vermeldt dat hij/zij, nadat de modeltoepassingsfase is voltooid, het model af en toe moet controleren om er zeker van te zijn dat het correct werkt en up-to-date is.

47. Leg de verschillen uit tussen machine learning en deep learning.

Deep learning is een vorm van machinaal leren, maar deze vraag zal u helpen om te bepalen of uw kandidaat de belangrijkste verschillen begrijpt.

De vijf belangrijkste verschillen tussen machine learning en deep learning zijn de volgende:

  • Machine learning is wanneer machines hun eigen beslissing nemen met behulp van gegevens uit het verleden. Bij deep learning doen machines dit met behulp van kunstmatige neurale netwerken.

  • Machine learning heeft slechts een kleine hoeveelheid gegevens nodig in de initiële trainingsfase. Deep learning heeft een grote hoeveelheid gegevens nodig.

  • Machine learning heeft geen high-end machines nodig omdat ze niet veel rekenkracht nodig hebben. Voor diep leren daarentegen zijn geavanceerde machines nodig.

  • Bij machinaal leren moet een ingenieur de meeste kenmerken identificeren en handmatig coderen. Bij deep learning gebruikt het model de gegevens die het ontvangt om zelf kenmerken te leren.

  • Bij machinaal leren verdeelt de machine het probleem in twee delen, lost ze afzonderlijk op en combineert ze dan. Met deep learning lost de machine het probleem end-to-end op.

48. Noem enkele toepassingen van machinaal leren onder toezicht die in moderne bedrijven worden gebruikt.

Ook hier test u het vermogen van uw kandidaat om enkele veelvoorkomende toepassingen van machinaal leren in de echte wereld te begrijpen.

Enkele goede voorbeelden die ze kunnen geven zijn:

  • Fraudedetectie, waarbij een model kan worden getraind om verdachte patronen te ontdekken die op fraude kunnen duiden.

  • Spam e-mail detectie, waarbij ingenieurs een model trainen om gegevens uit het verleden te gebruiken om e-mails te categoriseren als spam of geen spam

  • sentimentanalyse van documenten, waarbij specialisten in machine learning een model kunnen trainen om documenten te doorzoeken om te zien of de algemene toon positief, negatief of neutraal is

  • Medische diagnostiek, waarbij modellen kunnen worden getraind om uit te zoeken of een patiënt aan een ziekte lijdt.

49. Leg de verschillen uit tussen inductief en deductief machinaal leren.

Ook dit is een eenvoudige maar belangrijke vraag waarmee u kunt controleren of uw kandidaat alle basiskennis heeft.

Het belangrijkste verschil is dat inductief leren naar instanties kijkt om een conclusie te trekken. Deductief leren trekt conclusies uit ervaringen.

50. Hoe zou je kiezen welk algoritme je gaat gebruiken voor een classificatieprobleem?

Hoewel er veel variabelen zijn waarom iemand het ene algoritme boven het andere zou kiezen, kunt u met deze vraag zien of uw kandidaat een logisch denkproces volgt bij het kiezen van het juiste algoritme.

Hier zijn enkele voorbeelden van verschillende problemen en mogelijke oplossingen:

  • Probleem: de trainingsdataset is klein. Oplossing: Gebruik modellen met een hoge bias en lage variantie.

  • Probleem: de trainingsdataset is groot. Oplossing: Gebruik modellen met lage bias en hoge variantie.

  • Probleem: lage nauwkeurigheid. Oplossing: Test en kruisvalideer verschillende algoritmen.

51. Wat vind je van de aanbevelingsmotor van Amazon? Hoe werkt het?

Zodra een gebruiker iets koopt bij Amazon, slaat Amazon die aankoopgegevens op voor toekomstige referentie en vindt producten die waarschijnlijk gekocht zullen worden.

Toekomstige aanbevelingen worden mogelijk gemaakt door het Association-algoritme, dat patronen kan identificeren in een gegeven dataset.

52. Kernel SVM definiëren.

SVM staat voor Support Vector Machine. Dit is een klasse algoritmen die patronen analyseren.

53. Leg uit hoe je een e-mail spamfilter zou bouwen.

Uw kandidaat moet laten zien dat hij in staat is om duidelijke, logische stappen te geven.

Om een spamfilter te maken:

  • U moet het spamfilter voeden met duizenden e-mails die eerder zijn gecategoriseerd als "spam" of "geen spam".

  • Het supervised machine learning-algoritme begint dan met het detecteren van e-mails die waarschijnlijk spam zijn op basis van woorden die in deze e-mails worden gebruikt (bijv. gratis aanbieding, loterij, enz.)

  • Het spamfilter gebruikt vervolgens algoritmen zoals SVM (Support Vector Machines) en beslisbomen, evenals statistische analyse om nieuwe inkomende e-mails te sorteren in "spam" of "geen spam".

  • Als de waarschijnlijkheid van spam hoog is, wordt de e-mail als spam bestempeld en komt deze niet in de inbox terecht.

  • De technicus moet vervolgens de nauwkeurigheid van het model testen om te bepalen welk algoritme het beste kan worden gebruikt, d.w.z. het algoritme met de hoogste nauwkeurigheid voor spamdetectie.

54. Leg uit wat een aanbevelingssysteem is.

In lekentaal is een aanbevelingssysteem een informatiesysteem dat voorspelt wat een gebruiker graag zou willen zien door eerdere keuzepatronen van gebruikers te filteren.

Aanbevelingensystemen sturen je bijvoorbeeld productaanbevelingen van Amazon op basis van wat u eerder hebt gekocht. Ze worden ook gebruikt door Netflix wanneer het platform programma's aanbeveelt die je misschien leuk vindt om te bekijken.

55. Er bestaan veel algoritmen voor machinaal leren. Hoe zou je dan een algoritme kiezen voor een bepaalde dataset?

Hier controleert u of uw kandidaat kan aantonen dat hij logisch redeneert en kritisch denkt bij het maken van keuzes.

Er bestaat geen 'perfect' algoritme dat voor elke situatie werkt. Daarom zal een goede ingenieur een algoritme kiezen aan de hand van deze vragen:

  • Wat is het doel van het bedrijf?

  • Zijn de gegevens gelabeld, ongelabeld of gemengd?

  • Heeft het probleem betrekking op clustering, regressie, classificatie of associatie?

  • Hoeveel gegevens zijn er?

  • Zijn de gegevens categorisch of continu?

Huur de beste machine learning-engineers in door de beste vragen te kiezen

Machine learning wordt elk jaar belangrijker. De toepassingen en use cases groeien: Vandaag de dag wordt het zelfs gebruikt in wervingstechnologie. Daarom is het vinden van de beste machine learning-engineers cruciaal voor uw organisatie.

Ten eerste moet u duidelijke en aantrekkelijke functiebeschrijvingen voor machine learning schrijven om de meest gekwalificeerde kandidaten aan te trekken. U moet ook de beste sollicitatievragen voor machine learning engineers gebruiken, die we in dit artikel hebben opgenomen.

Een andere selectiemethode van onschatbare waarde die u kunt gebruiken is het testen van vaardigheden, wat efficiënt en kosteneffectief is en u helpt om onbevooroordeeld aan te nemen. Beoordeel de vaardigheden van sollicitanten aan het begin van uw wervingsproces om uw beste talent te identificeren en nodig alleen gekwalificeerde kandidaten uit voor een gesprek.

Deze aanpak kan een effectieve vervanging zijn voor cv-screening, die veel middelen kan kosten en partijdig kan zijn.

Voor de beste resultaten gebruikt u onze Machine Leren en Data Science-tests om de vaardigheden van kandidaten op het gebied van machine learning, neurale netwerken, deep learning en statistiek te beoordelen.

Met TestGorilla aan uw zijde, kunt u uitzonderlijke machine learning-professionals inhuren in een fractie van de tijd die u anders nodig zou hebben - en uw organisatie helpen haar doelen te bereiken.

Registreer u vandaag nog gratis en begin met het nemen van betere beslissingen bij het aannemen van personeel, sneller en zonder vooroordelen.

Deel

Werf de beste kandidaten met TestGorilla

Maak binnen enkele minuten assessments voor pre-employment om kandidaten te screenen, bespaar tijd en werf toptalent.

Het beste advies over pre-employment-testen, in je inbox.

Geen spam. Afmelden op elk gewenst moment.

TestGorilla Logo

Werf de beste kandidaat. Geen vooroordelen. Geen stress.

Onze screeningstesten identificeren de beste kandidaten en maken je wervingsbeslissingen sneller, gemakkelijker en zonder vooringenomenheid.