Come costruire un fantastico portfolio di data science

Se la sezione delle competenze sul tuo curriculum elenca Python, R, SQL, Machine Learning, Deep Learning e ti stai chiedendo perché vieni rifiutato ogni volta, continua a leggere.

Ci sono milioni di persone che cercano lavoro in Data Science e le opportunità sono limitate. Quindi, la domanda importante è come puoi distinguerti dal gruppo?

La guida cerca di catturare tutto ciò di cui hai bisogno per creare un portfolio kickass - così buono che non possono ignorarti!

Perché dovresti costruire un portafoglio?

Per qualcuno che ha conseguito un Master o un Ph.D. da un college di alto livello, trovare un lavoro potrebbe non essere così difficile. L'istituto aggiunge credibilità al tuo profilo che i datori di lavoro cercano.

Per qualcuno che non ha una laurea rilevante o abbastanza esperienza, quella credibilità deve essere stabilita tramite un portfolio stellare che mostri il tuo potenziale. Il portfolio funziona quindi come prova delle tue competenze.

Ci sono numerosi fattori che possono aumentare le tue possibilità di essere notato da un datore di lavoro. Con una strategia intelligente e sforzi costanti, sarai in grado di risolverlo.

Costruiamo un piano infallibile proprio qui per lavorare per ottenere un lavoro!

Passaggio 1: identifica te stesso

Saltare da un portale professionale a un altro e fare domanda per un lavoro che menziona "Dati" non è una mossa intelligente. Aumenterebbe il tuo stress e il tuo carico di lavoro solo per apprendere che ti hanno rifiutato.

Restringi la tua ricerca

Immagine per post

Lo spettro della Data Science in sé è enorme. La maggior parte delle persone giace in uno degli strati della piramide mostrati nel diagramma. Solo pochi possono padroneggiare due o tre livelli.

Un'organizzazione data-driven oggi impiega per varie posizioni, ed ecco un elenco con il livello di difficoltà dei problemi che questi professionisti risolvono:

  • Analisti di dati - Da facile a medio
  • Ingegneri dei dati : da medio a difficile
  • Ingegneri ML - Medio
  • Ricerca / Data Scientists - Difficile
  • Ingegneri di intelligenza artificiale / professionisti del deep learning - Molto difficile

Ovviamente, nessun individuo può portare a termine tutti i compiti. La prima cosa che devi fare è identificare gli skillset che hai imparato (o che vuoi padroneggiare). Sulla base di questo set di competenze, dovresti selezionare la descrizione del lavoro a cui mirerai.

Passaggio 2: studio della descrizione del lavoro

Se passi abbastanza tempo a esaminare un mucchio di descrizioni di lavoro di vari profili di dati, noterai che chiedono l'esperienza anche se è per qualcuno appena uscito da un college.

La seconda cosa che dovresti capire è che ci sono lavori che hanno requisiti più generalisti come l'analisi dei dati. E poi ci sono aree di ricerca più mirate e dedicate, come un ricercatore in un hedge fund, che è molto pesante per la matematica.

Ecco alcuni screenshot che ho catturato da alcune grandi organizzazioni (Facebook, NetFlix) e di medie dimensioni (h20.ai) che cercano in un candidato:

Immagine per post

Studiarli ci riporta alla domanda molto importante e comune:

Come posso compensare il fattore esperienza se sono appena uscito dalla scuola ?

La risposta sono i progetti!

Aspettare! Lo sapevo già…

Ecco cosa probabilmente non sapevi: questi progetti non possono essere la tua analisi sul set di dati MNIST o la risoluzione del problema di classificazione del set di dati del Titanic.

Allora, che tipo di progetti? Dove ottengo questi progetti? Cosa devo fare?

Per rispondere a questa domanda, tuffiamoci nella costruzione del tuo portafoglio.

Fase 3 - Mostrare competenza tramite i progetti

I progetti sono il tuo unico sostituto dell'esperienza.

Chris Albon, quando gli è stato chiesto cosa dovrebbero avere le persone nel loro portfolio quando cercano il loro primo lavoro in un'intervista con Datacamp, ha detto:

... quando qualcuno fa domanda, alcune delle cose migliori a cui può candidarsi sono progetti che hanno fatto o qualcosa come, per esempio, un campo di addestramento o forse la loro ricerca di tesi o qualcosa del genere, dove possiamo dare un'occhiata e dì, oh, fantastico, come se avessi fatto cose interessanti, hai lavorato con alcuni dati, alcuni modi interessanti.

Cosa dovrebbero riflettere questi progetti:

Ci sono quattro fattori principali che i tuoi progetti dovrebbero convalidare, indipendentemente dal profilo per cui ti candidi:

  1. La tua salda presa sulle competenze richieste
  2. La complessità del problema che hai risolto o studiato: può essere un nuovo problema o un problema di livello aziendale comunemente chiesto.
  3. Competenza nel settore: la quantità di ricerche che hai svolto per trovare le risposte alle domande o per costruire un'infrastruttura di dati.
  4. La tua volontà di fare quel passo in più e far risaltare il progetto: distribuire il tuo progetto per uso pubblico o scrivere un blog o pubblicare un video per spiegare i tuoi risultati.

Tipi di progetti da aggiungere al tuo portfolio

Tenendo presente i fattori sopra menzionati, ecco un elenco di idee di progetto che richiederanno sforzi sinceri, ma aggiungeranno peso al tuo portafoglio.

  • Lavorare con dati reali: se puoi mostrare a qualcuno che puoi lavorare con dati grezzi provenienti da fonti diverse e rispondere a domande interessanti su leggi sociali, finanza, sanità o qualsiasi esperimento scientifico, ciò sarebbe molto apprezzato.
  • Esplorare p dataset ublicly disponibili:
Immagine per post

Fare uso di set di dati disponibili pubblicamente, esplorare i dati per diversi approfondimenti, definire domande che non sono mai state poste prima, scavare in riviste e documenti di ricerca per cercare materiale correlato e quindi scoprire modelli nascosti utilizzando modelli statistici.

Un'analisi approfondita di un set di dati disponibile pubblicamente è ancora un buon punto di partenza.

  • Sfrutta la tua curiosità: come professionista dei dati curioso, devono esserci prodotti / servizi / domande che trovi intriganti. Usa questa curiosità per esplorare nuovi problemi. Ad esempio, un fanatico dello sport può creare un dashboard o un'infrastruttura di dati che gestisca le statistiche e gli schemi delle prestazioni di tutti i giocatori.
  • Contribuire a pacchetti Open Source : ogni organizzazione tiene in grande considerazione i contributi open source per l'apprendimento automatico o i pacchetti di calcolo scientifico. Sviluppare software gratuito e open source aumenta notevolmente le tue possibilità di essere reclutato. Puoi provare a contribuire a pacchetti come sklearn, numpy e pandas. Dimostra che puoi lavorare con basi di codice enormi e complesse e che conosci bene le tue cose.
  • Creazione di progetti end-to-end: un ottimo modo per dimostrare che sei veramente un generalista è creare progetti end-to-end (più simili a prodotti). Non fermarti a trovare la soluzione o creare un prototipo per un sistema di raccomandazioni o un chatbot fintech. Fai uno sforzo in più, implementalo, condividilo con i tuoi colleghi per usarlo, raccogli alcune analisi. Questo mostra quanto sei appassionato di ciò che fai e fino a che punto puoi imparare nuove tecnologie e metodi.
  • Progetti specifici per abilità: ci sono persone che sono davvero brave a pulire i dati o creare grafici approfonditi o automatizzare le pipeline di dati. Dovresti considerare di sviluppare i tuoi pacchetti Python che potrebbero automatizzare quelle attività di pulizia o dato un dataframe il pacchetto dovrebbe creare grafici di coppia e tutte le altre possibilità per accelerare il processo EDA.

Elenco di alcuni portfolio davvero interessanti per l'ispirazione:

  • //nycdatascience.com/blog/student-works/improving-a-music-websites-user-experience/
  • //varianceexplained.org/r/trump-tweets/
  • //nycdatascience.com/blog/student-works/forecasting-cryptocurrencies-price-trends/
  • //nycdatascience.com/blog/student-works/web-scraping/covid19s-impact-on-preventable-cancer-risk-in-women-a-call-for-action/

Timeline per il progetto

La quantità di tempo che dedichi a un progetto fornisce indizi sulla complessità, la nicchia e il volume di lavoro che richiede. Dovrebbe aiutarti a giustificare se il progetto è degno di portfolio o meno.

L'impegno che dedichi al tuo progetto per portarlo al livello successivo dipende da molti fattori diversi.

Solo per darti qualcosa da quantificare, se hai scelto una tecnologia nascente con cui lavorare, dovresti dedicare almeno un mese a costruire qualcosa di concreto.

Come aggiungere questi progetti al tuo portfolio

Una volta che hai alcuni buoni progetti che puoi includere nel tuo portfolio, il passo successivo è impacchettare il tuo lavoro nel miglior modo possibile.

Apple è nota per la confezione e il design. Sii sincero su come impacchettare il tuo lavoro prima di metterlo in mostra.

Ecco come puoi aggiungere più peso ai tuoi progetti:

  • GitHub URL: Se si decide di aggiungere un link al tuo repo, assicurarsi che repo solo non contiene un notebook Jupyter, dovrebbe avere tutti gli altri file comerequirements.txt,.gitignore, una licenza, se richiesto, e così via. In questo modo sarai assunto come pacchetto completo e non solo come esperto di notebook Jupyter.
  • Blog: scrivere di ciò che hai ottenuto è sempre una buona pratica e per i datori di lavoro crea fiducia nel tuo lavoro e nella tua capacità di comunicare efficacemente ciò che hai fatto.
  • Applicazioni distribuite: se hai distribuito la tua applicazione basata sul machine learning, fornisci il collegamento al datore di lavoro per utilizzarla.
  • Dashboard: se sei orgoglioso della tua analisi, puoi creare una dashboard da essa. Puoi usare Voila o Dash se lavori in Python. Se sei un esperto di analisi dei dati aziendali, puoi aggiungere il tuo Power BI o Tableaudashboard sumostra le tue capacità di analisi.

Passaggio 4: profili dei social media

Un buon profilo sui social media può aiutarti a ottenere il tuo prossimo lavoro da sogno. GitHub, LinkedIn, Twitter, Kaggle, StackOverflow e Medium sono le principali piattaforme che le persone utilizzano per condividere il proprio lavoro / i propri sentimenti, fare rete, consumare informazioni e fare pubblicità.

Le organizzazioni e i reclutatori utilizzano queste piattaforme per raggiungere la loro prossima potenziale assunzione.

  • GitHub: avere un buon profilo GitHub con molti contributi o stelle sui tuoi repository ti rende un programmatore competitivo.
Immagine per post
  • Kaggle: La partecipazione alle competizioni Kaggle, la creazione di taccuini e set di dati utili può anche aiutarti a creare un buon profilo di analista dei dati.
Immagine per post

Un estratto dal post di Reshama Shaikh To Kaggle or Not dice:

È vero, fare una gara di Kaggle non qualifica qualcuno per essere uno scienziato dei dati. Né prendere una lezione o partecipare a un tutorial di conferenza o analizzare un set di dati o leggere un libro nella scienza dei dati. Lavorare sulla concorrenza aggiunge alla tua esperienza e aumenta il tuo portafoglio. È un complemento agli altri tuoi progetti, non l'unica cartina di tornasole del proprio set di competenze di data science.
  • LinkedIn: ho utilizzato personalmente LinkedIn per ottenere il mio primo lavoro, il mio primo cliente e molti collaboratori. È una piattaforma one-stop per entrare in contatto con le persone che lavorano nelle aziende dei tuoi sogni, interagire con loro, trovare lavoro e seguire progressi interessanti. Leggi questa guida completa al profilo LinkedIn di data science per ottimizzare il tuo profilo.

    Suggerimento: dovresti essere pronto a offrire qualcosa prima di chiedere un favore.

  • Twitter: tutti i grandi nomi nel campo della scienza dei dati usano Twitter abbastanza frequentemente e puoi interagire con le persone nel tuo campo. Impari a cosa stanno lavorando queste persone e i loro sentimenti sulle questioni sociali.

    Puoi promuovere i tuoi blog, video e altri risultati con il tuo Twitter. Le persone hanno offerte di lavoro, inviti a conferenze, lavoro freelance e contratti di marketing di influencer per il loro lavoro e un buon seguito su Twitter.

I migliori data scientist da seguire su Twitter:

  • Andreas Mueller - Sci-kit Learn Developer
  • Yann LeCunn - Chief AI Scientist di Facebook
  • Dean Abbott - Chief Data Scientist SmarterHQ
  • Andrew Ng - Co-fondatore di Coursera

Ce ne sono molti altri, puoi guardare il mio profilo e le persone che seguo sul mio profilo Twitter.

Passaggio 5: condensare un portfolio in un curriculum a pagina singola

L'elemento più importante della tua domanda di lavoro è il tuo curriculum in quanto decide se sarai selezionato per il lavoro o meno.

Considerando che tutti gli altri elementi sono in buona forma, è tempo di condensare queste informazioni in un curriculum elegante e conciso.

Come devi sapere, i reclutatori non impiegano più di un paio di minuti per sfogliare il tuo curriculum, quindi devi trasmettere tutto ciò che hai fatto all'interno di una singola pagina.

Le sezioni più importanti dopo il tuo nome e le informazioni di contatto:

  1. Riepilogo : in 1-2 frasi, spiega cosa hai fatto e cosa intendi fare.
  2. Abilità : non riempirle con tutte le abilità casuali che ti vengono in mente. Non segnarti su una scala. Una sola linea con tutte le principali competenze dovrebbe essere sufficiente.
  3. Progetti : questa dovrebbe essere la sezione principale per i neolaureati poiché non hai molto nella sezione della tua esperienza. Sii conciso su ciò che hai ottenuto, aggiungi collegamenti ipertestuali al tuo lavoro. Arruolare progetti chiave di volta, concorsi Kaggle, ricerca indipendente e progetti. Questa sezione si chiamerà il tuo portafoglio.
  4. Attività del corso : aggiungi solo attività del corso pertinenti. Puoi menzionare il tuo GPA, se applicabile.
  5. Esperienza (se ne hai): aggiungi la cronologia del lavoro pertinente insieme ai punti elenco che parlano delle principali attività che hai svolto presso l'organizzazione.
  6. Link ai social media: non dimenticare di aggiungere link ai tuoi profili di social media attivi.

Ecco un esempio di un buon curriculum che è stato recensito durante Kaggle CareerCon2018:

Immagine per post

Chiamare all'azione

Probabilmente hai ancora molte domande. Dove dovresti cercare idee di progetto? Come inizi? Come ti prepari per le interviste? E molti altri.

Ho lavorato alla creazione di progetti per ogni profilo in base alla mia esperienza di lavoro come progettista didattico per tracce Web e Data Science.

In base alla tua risposta a questo post, creerò un canale Discord per ogni profilo in cui condividerò i progetti e le istruzioni per completarli con la sequenza temporale associata a ciascuno.

Credo fermamente nella pedagogia basata su progetti e quindi creerò molti contenuti in cui verrà trattato lo sviluppo del progetto. Condividerei le risorse che puoi utilizzare per imparare (alcune delle quali creerò io stesso) e completare i progetti con successo.

Puoi guardare uno dei miei esempi qui: COVID-19 Interactive Analysis Dashboard da Jupyter Notebooks.

Ecco la versione video di questo post del blog sul mio canale Data Science with Harshit:

Data Science with Harshit

Con questo canale, ho intenzione di lanciare un paio di serie che coprono l'intero spazio della scienza dei dati. Ecco perché dovresti iscriverti al canale:

  • Queste serie coprirebbero tutti i tutorial di qualità richiesti / richiesti su ciascuno degli argomenti e sottoargomenti come i fondamenti di Python per la scienza dei dati.
  • Matematica spiegata e derivazioni del motivo per cui facciamo ciò che facciamo in ML e Deep Learning.
  • Podcast con data scientist e ingegneri di Google, Microsoft, Amazon, ecc. E CEO di grandi aziende basate sui dati.
  • Progetti e istruzioni per implementare gli argomenti appresi finora.

Per portare avanti la discussione, sentiti libero di connetterti con me su LinkedIn o Twitter.