Queste sono le migliori origini dati aperte gratuite che chiunque può utilizzare

Cosa sono gli Open Data?

In termini semplici, Open Data indica il tipo di dati che è aperto a chiunque e a tutti per l'accesso, la modifica, il riutilizzo e la condivisione.

Open Data deriva la sua base da vari "movimenti aperti" come open source, hardware aperto, governo aperto, scienza aperta ecc.

Governi, organizzazioni indipendenti e agenzie si sono fatti avanti per aprire le porte dei dati per creare dati sempre più aperti per un accesso facile e gratuito.

Perché gli open data sono importanti?

Gli open data sono importanti perché il mondo è cresciuto sempre più in base ai dati. Ma se ci sono restrizioni all'accesso e all'uso dei dati, l'idea di business e governance basati sui dati non si concretizzerà.

Pertanto, gli open data hanno il loro posto unico. Può consentire una più completa comprensione dei problemi globali e delle questioni universali. Può dare una grande spinta alle imprese. Può essere un grande impulso per l'apprendimento automatico. Può aiutare a combattere problemi globali come malattie, criminalità o carestia. Gli open data possono responsabilizzare i cittadini e quindi rafforzare la democrazia. Può snellire i processi e i sistemi che la società e i governi hanno costruito. Può aiutare a trasformare il modo in cui comprendiamo e interagiamo con il mondo.

Quindi ecco la mia lista di 15 fantastiche fonti di dati aperti:

1. Dati aperti della Banca mondiale

In quanto archivio dei dati più completi al mondo su ciò che sta accadendo in diversi paesi del mondo, gli Open Data della Banca Mondiale sono una fonte vitale di Open Data. Fornisce inoltre l'accesso ad altri set di dati menzionati nel catalogo dati.

Gli Open Data della Banca Mondiale sono enormi perché hanno 3000 set di dati e 14000 indicatori che comprendono microdati, statistiche di serie temporali e dati geospaziali.

Anche l'accesso e la scoperta dei dati desiderati è abbastanza semplice. Tutto quello che devi fare è specificare i nomi degli indicatori, i paesi o gli argomenti e ti aprirà il tesoro degli Open Data. Consente inoltre di scaricare dati in diversi formati come CSV, Excel e XML.

Se sei un giornalista o un accademico, rimarrai affascinato dalla gamma di strumenti a tua disposizione. Puoi accedere a strumenti di analisi e visualizzazione che possono rafforzare la tua ricerca. Può felicitare una più profonda e migliore comprensione dei problemi globali.

Puoi accedere all'API che può aiutarti a creare le visualizzazioni dei dati di cui hai bisogno, combinazioni live con altre origini dati e molte altre funzionalità simili.

Pertanto, non sorprende che gli Open Data della Banca Mondiale siano in cima a qualsiasi elenco di fonti di Open Data!

2. WHO (World Health Organization) - Open data repository

Il repository di dati aperti dell'OMS è il modo in cui l'OMS tiene traccia delle statistiche specifiche sulla salute dei suoi 194 Stati membri.

Il repository mantiene i dati sistematicamente organizzati. È possibile accedervi secondo le diverse esigenze. Ad esempio, sia che si tratti di mortalità o di carico di malattie, è possibile accedere a dati classificati in 100 o più categorie come gli obiettivi di sviluppo del millennio (nutrizione infantile, salute infantile, salute materna e riproduttiva, immunizzazione, HIV / AIDS, tubercolosi, malaria, malattie trascurate, acqua e servizi igienico-sanitari), malattie non trasmissibili e fattori di rischio, malattie a tendenza epidemica, sistemi sanitari, salute ambientale, violenza e lesioni, equità ecc.

Per le tue esigenze specifiche, puoi passare attraverso i set di dati in base a temi, categoria, indicatore e paese.

La cosa buona è che è possibile scaricare tutti i dati necessari in formato Excel. È inoltre possibile monitorare e analizzare i dati utilizzando il suo portale dati.

È disponibile anche l'API per i dati e il contenuto statistico dell'Organizzazione mondiale della sanità.

3. Google Public Data Explorer

Lanciato nel 2010, Google Public Data Explorer può aiutarti a esplorare grandi quantità di set di dati di interesse pubblico. Puoi visualizzare e comunicare i dati per i tuoi rispettivi usi.

Rende disponibili i dati di diverse agenzie e fonti. Ad esempio, puoi accedere ai dati della Banca mondiale, del Bureau of Labor Statistics degli Stati Uniti e dell'Ufficio degli Stati Uniti, dell'OCSE, dell'FMI e altri.

Diverse parti interessate accedono a questi dati per diversi scopi. Che tu sia uno studente o un giornalista, che tu sia un politico o un accademico, puoi sfruttare questo strumento per creare visualizzazioni di dati pubblici.

È possibile distribuire vari modi di rappresentare i dati come grafici a linee, grafici a barre, mappe e grafici a bolle con l'aiuto di Data Explorer.

La parte migliore è che troverai queste visualizzazioni abbastanza dinamiche. Significa che li vedrai cambiare nel tempo. Puoi cambiare argomento, concentrarti su diverse voci e modificare la scala.

È anche facilmente condivisibile. Non appena hai pronto il grafico, puoi incorporarlo nel tuo sito web o blog o semplicemente condividere un link con i tuoi amici.

4. Registro di Open Data su AWS (RODA)

Questo è un repository contenente set di dati pubblici. Sono dati disponibili dalle risorse AWS.

Per quanto riguarda RODA, puoi scoprire e condividere i dati che sono pubblicamente disponibili.

In RODA, puoi utilizzare parole chiave e tag per tipi comuni di dati come genomica, immagini satellitari e trasporti al fine di cercare qualsiasi dato tu stia cercando. Tutto questo è possibile su una semplice interfaccia web.

Per ogni set di dati, scoprirai la pagina dei dettagli, esempi di utilizzo, informazioni sulla licenza e tutorial o applicazioni che utilizzano questi dati.

Facendo uso di un'ampia gamma di prodotti di elaborazione e analisi dei dati, puoi analizzare i dati aperti e creare i servizi che desideri.

Anche se i dati a cui accedi sono disponibili tramite le risorse AWS, devi tenere presente che non sono forniti da AWS. Questi dati appartengono a diverse agenzie, organizzazioni governative, ricercatori, aziende e individui.

5. Portale Open Data dell'Unione Europea

Puoi accedere a tutti i dati aperti che le istituzioni, le agenzie e altre organizzazioni dell'UE pubblicano su un'unica piattaforma, ovvero il portale Open Data dell'Unione europea.

Il portale Open Data dell'UE ospita dati aperti vitali relativi ai settori delle politiche dell'UE. Questi ambiti politici includono economia, occupazione, scienza, ambiente e istruzione.

Circa 70 istituzioni, organizzazioni o dipartimenti dell'UE come Eurostat, l'Agenzia europea dell'ambiente, il Centro comune di ricerca e altre direzioni generali della Commissione europea e agenzie dell'UE hanno reso pubblici i loro set di dati e consentito l'accesso. Questi set di dati hanno superato il numero di 11700 fino ad oggi.

Il portale consente un facile accesso. Puoi facilmente cercare, esplorare, collegare, scaricare e riutilizzare i dati attraverso un catalogo di metadati comuni. Puoi farlo per i tuoi scopi specifici. Potrebbe essere per scopi commerciali o non commerciali.

È possibile cercare nel catalogo dei metadati tramite un motore di ricerca interattivo (scheda Dati) e query SPARQL (scheda Dati collegati).

Utilizzando questo catalogo, è possibile accedere ai dati memorizzati sui diversi siti Web delle istituzioni, agenzie e organizzazioni dell'UE.

6. FiveThirtyEight

È un ottimo sito per il giornalismo basato sui dati e il racconto di storie.

Fornisce le sue varie fonti di dati per una varietà di settori come politica, sport, scienza, economia, ecc. Puoi anche scaricare i dati.

Quando accedi ai dati, ti imbatterai in una breve spiegazione relativa a ciascun set di dati rispetto alla sua fonte. Imparerai anche cosa significa e come usarlo.

Per rendere questi dati user-friendly, fornisce set di dati nei formati più semplici e non proprietari come i file CSV possibile. Inutile dire che questi formati possono essere facilmente accessibili ed elaborati da esseri umani e macchine.

Con l'aiuto di questi set di dati, puoi creare storie e visualizzazioni secondo le tue esigenze e preferenze.

7. US Census Bureau

US Census Bureau è la più grande agenzia statistica del governo federale. Memorizza e fornisce dati e fatti affidabili su persone, luoghi ed economia d'America.

Il Census Bureau considera la sua nobile missione quella di estendere i propri servizi come il fornitore più affidabile di dati di qualità.

Che si tratti di un governo federale, statale, locale o tribale, tutti utilizzano i dati del censimento per una varietà di scopi. Questi governi utilizzano questi dati per determinare l'ubicazione di nuovi alloggi e strutture pubbliche. Lo fanno anche al momento di esaminare le caratteristiche demografiche di comunità, stati e Stati Uniti.

Questi dati vengono utilizzati anche nella pianificazione dei sistemi di trasporto e delle strade. Quando si tratta di decidere le quote e creare polizia e recinti dei vigili del fuoco, questi dati sono utili. Quando i governi creano aree localizzate di elezioni, scuole, servizi pubblici ecc., Fanno uso di questi dati. È pratica compilare le informazioni sulla popolazione una volta ogni dieci anni e questi dati sono molto utili per ottenere lo stesso risultato.

Esistono vari strumenti come American Fact Finder, Census Data Explorer e Quick Facts che sono utili nel caso in cui si desideri cercare, personalizzare e visualizzare i dati.

Ad esempio, Quick Facts contiene solo statistiche per tutti gli stati, contee, città e persino paesi con una popolazione di 5000 o più.

Allo stesso modo, American Fact Finder può aiutarti a scoprire fatti popolari come la popolazione, il reddito, ecc. Fornisce informazioni che vengono richieste di frequente.

La cosa buona è che puoi cercare, interagire con i dati, conoscere le statistiche popolari e vedere i grafici correlati tramite Census Data Explorer. Inoltre, puoi anche utilizzare lo strumento visivo per personalizzare i dati su un'esperienza di mappe interattive.

8. Data.gov

Data.gov è il tesoro degli open data del governo statunitense. Solo di recente è stata presa la decisione di rendere disponibili gratuitamente tutti i dati del governo.

Quando è stato lanciato, erano solo 47. Ora ci sono 180.000 set di dati.

Perché Data.gov è una grande risorsa è perché puoi trovare dati, strumenti e risorse che puoi distribuire per una varietà di scopi. Puoi condurre le tue ricerche, sviluppare le tue applicazioni web e mobili e persino progettare visualizzazioni di dati.

Tutto quello che devi fare è inserire parole chiave nella casella di ricerca e sfogliare tipi, tag, formati, gruppi, tipi di organizzazione, organizzazioni e categorie. Ciò faciliterà un facile accesso ai dati o ai set di dati di cui hai bisogno.

Data.gov segue lo schema dei dati aperti del progetto: un insieme di campi obbligatori (titolo, descrizione, tag, ultimo aggiornamento, editore, nome del contatto, ecc.) Per ogni set di dati visualizzato su Data.gov.

9. DBpedia

Come sai, Wikipedia è un'ottima fonte di informazioni. DBpedia mira a ottenere contenuti strutturati dalle preziose informazioni create da Wikipedia.

Con DBpedia, puoi cercare ed esplorare semanticamente relazioni e proprietà della risorsa Wikipedia. Ciò include anche collegamenti ad altri set di dati correlati.

Ci sono circa 4,58 milioni di entità nel set di dati DBpedia. 4,22 milioni sono classificati in ontologia, incluse 1.445.000 persone, 735.000 posti, 123.000 album musicali, 87.000 film, 19.000 videogiochi, 241.000 organizzazioni, 251.000 specie e 6.000 malattie.

Esistono etichette e abstract per queste entità in circa 125 lingue. Ci sono 25,2 milioni di collegamenti alle immagini. Ci sono 29,8 milioni di link a pagine web esterne.

Tutto quello che devi fare per utilizzare DBpedia è scrivere query SPARQL sull'endpoint o scaricarne i dump.

DBpedia ha beneficiato diverse aziende, come Apple (tramite Siri), Google (tramite Freebase e Google Knowledge Graph) e IBM (tramite Watson), e in particolare i rispettivi prestigiosi progetti associati all'intelligenza artificiale.

10. freeCodeCamp Open Data

È una comunità open source. Perché è importante perché ti consente di programmare, creare progetti pro bono dopo le organizzazioni non profit e ottenere un lavoro come sviluppatore.

Affinché ciò avvenga, la comunità di freeCodeCamp.org rende disponibili ogni mese enormi quantità di dati. Lo hanno trasformato in dati aperti.

Troverai una varietà di cose in questo repository. Puoi trovare set di dati, analisi degli stessi e persino demo di progetti basati sui dati di freeCodeCamp. Puoi anche trovare collegamenti a progetti esterni che coinvolgono i dati di freeCodeCamp.

Può aiutarti con una varietà di progetti e attività che potresti avere in mente. Che si tratti di web analytics, social media analytics, social network analysis, education analysis, data visualization, data-driven web development o bot, i dati offerti da questa community possono essere estremamente utili ed efficaci.

11. Set di dati aperti di Yelp

Il set di dati di Yelp è fondamentalmente un sottoinsieme di nient'altro che le nostre attività, recensioni e dati degli utenti da utilizzare in attività personali, educative e accademiche.

Ci sono 5.996.996 recensioni, 188.593 attività commerciali, 280.991 immagini e 10 aree metropolitane incluse nei set di dati aperti di Yelp.

Puoi usarli per scopi diversi. Poiché sono disponibili come file JSON, è possibile utilizzarli per insegnare agli studenti i database. Puoi usarli per apprendere la PNL o per campioni di dati di produzione mentre comprendi come progettare app mobili.

In questo set di dati, troverai ogni file composto da un singolo tipo di oggetto, un oggetto JSON per riga.

12. Set di dati UNICEF

Poiché l'UNICEF si occupa di un'ampia varietà di questioni critiche, ha raccolto dati rilevanti su istruzione, lavoro minorile, disabilità infantile, mortalità infantile, mortalità materna, acqua e servizi igienico-sanitari, basso peso alla nascita, assistenza prenatale, polmonite, malaria, carenza di iodio disturbo, mutilazione / escissione genitale femminile e adolescenti.

I set di dati aperti dell'UNICEF pubblicati sul registro IATI: //www.iatiregistry.org/publisher/unicef ​​sono stati estratti direttamente dal sistema operativo dell'UNICEF (VISION) e da altri sistemi di dati e riflettono gli input forniti dai singoli uffici dell'UNICEF.

La cosa buona è che c'è un aggiornamento regolare quando si tratta di questi set di dati. Ogni mese i dati vengono aggiornati per renderli più completi, affidabili e precisi.

Puoi accedere liberamente e facilmente a questi dati. Per fare ciò, puoi scaricare questi dati in formato CSV. È inoltre possibile visualizzare in anteprima i dati di esempio prima di scaricarli.

Sebbene chiunque possa esplorare e visualizzare i set di dati dell'UNICEF, ci sono tre principali editori:

PORTALE DI TRASPARENZA DEGLI AIUTI DELL'UNICEF: puoi accedere molto più facilmente ai dataset se utilizzi questo portale. Include anche i dettagli per ogni paese in cui lavora l'UNICEF.

Editore d-portal: Al momento è in versione BETA. Con questo portale puoi esplorare i dati IATI.

È possibile cercare le informazioni relative alle attività di sviluppo, ai budget, ecc. È possibile esplorare queste informazioni in base al paese.

Piattaforma dati dell'editore: su questa piattaforma è possibile accedere facilmente a statistiche, grafici e metriche sui dati a cui si accede tramite il registro IATI. Se fai clic sulle intestazioni, puoi anche ordinare molte delle tabelle che vedi sulla piattaforma. Troverai anche molti dei set di dati nelle piattaforme in formato JSON leggibile dalla macchina.

13. Kaggle

Kaggle è fantastico perché promuove l'uso di diversi formati di pubblicazione di set di dati. Tuttavia, la parte migliore è che raccomanda vivamente che gli editori del set di dati condividano i propri dati in un formato accessibile e non proprietario.

La piattaforma supporta formati di dati aperti e accessibili. È importante non solo per l'accesso ma anche per qualsiasi cosa tu voglia fare con questi dati. Pertanto, Kaggle Dataset definisce chiaramente i formati di file consigliati durante la condivisione dei dati.

La cosa unica dei set di dati Kaggle è che non è solo un repository di dati. Ogni set di dati rappresenta una comunità che ti consente di discutere i dati, scoprire codici e tecniche pubblici e concettualizzare i tuoi progetti in Kernels.

CSV, JSON, SQLite, Archive, Big Query ecc. Sono tipi di file supportati da Kaggle. Puoi trovare una varietà di risorse per iniziare a lavorare sul tuo progetto di dati aperti.

La parte migliore è che Kaggle ti consente di pubblicare e condividere set di dati privatamente o pubblicamente.

14. LODUM

È l'iniziativa Open Data dell'Università di Münster. Grazie a questa iniziativa, chiunque può accedere a qualsiasi informazione pubblica sull'università in formati leggibili dalla macchina. Puoi accedervi facilmente e riutilizzarlo secondo le tue esigenze.

Dati aperti su artefatti scientifici e codificati come dati collegati sono resi disponibili nell'ambito di questo progetto.

Con l'aiuto di Linked Data, è possibile condividere e utilizzare dati, ontologie e vari standard di metadati. Si prevede, infatti, che sarà lo standard accettato per la fornitura di metadati e dei dati stessi sul Web.

Il team di LODUM ha co-avviato LinkedUniversities.org e LinkedScience.org.

È possibile utilizzare l'editor SPARQL o il pacchetto SPARQL di R per analizzare i dati.

Il pacchetto SPARQL consente di connettersi a un endpoint SPARQL su HTTP, porre una query SELECT o una query di aggiornamento (LOAD, INSERT, DELETE).

15. Repository di Machine Learning UCI

Funge da archivio completo di database, teorie di dominio e generatori di dati che vengono utilizzati dalla comunità di machine learning per l'analisi empirica degli algoritmi di machine learning.

In questo repository sono attualmente presenti 463 set di dati come servizio per la comunità di machine learning.

Il Center for Machine Learning and Intelligent Systems presso l'Università della California, Irvine, lo ospita e lo mantiene. David Aha l'aveva originariamente creato come studente laureato alla UC Irvine.

Da allora, studenti, educatori e ricercatori di tutto il mondo lo utilizzano come fonte affidabile di set di dati di machine learning.

Il modo in cui funziona è che ogni set di dati ha la sua pagina web distinta che raccoglie tutti i dettagli noti, comprese le pubblicazioni pertinenti che lo esaminano. Puoi scaricare questi set di dati come file ASCII, spesso l'utile formato CSV.

I dettagli dei set di dati sono riassunti in base ad aspetti come i tipi di attributi, il numero di istanze, il numero di attributi e l'anno di pubblicazione che possono essere ordinati e ricercati.

Portali di dati aperti e motori di ricerca:

Sebbene ci siano molti set di dati pubblicati da numerose agenzie ogni anno, pochissimi set di dati vengono riconosciuti e consolidati.

Il motivo per cui pochissimi set di dati di questo tipo sono una risorsa utile è che è una sfida sviluppare, gestire e fornire i dati in modo che le persone e le organizzazioni li trovino utili e facili da usare.

Tuttavia, di seguito è riportato un elenco di altri pochi importanti portali e piattaforme di dati aperti che consentono agli utenti di accedere agli open data abbastanza facilmente, studiarne l'impatto e raccogliere informazioni preziose.

  1. Ricerca di set di dati di Google
  2. Dataverse
  3. Open Data Kit
  4. Ckan
  5. Apri Data Monitor
  6. Plenar.io
  7. Apri mappa dell'impatto dei dati

Conclusione

Gli open data sono all'ordine del giorno. Il mondo ha gradualmente iniziato a muoversi verso sistemi aperti e gli open data sono giustamente sincronizzati con questo.

Le aziende e le organizzazioni che sfruttano gli open data acquisiranno un vantaggio competitivo e saranno in grado di dominare il futuro.