Data science is een discipline die onderzoekt waar een bepaalde informatiebasis vandaan komt. Het bespreekt ook hoe deze bronnen kunnen worden geïnterpreteerd en weergegeven voor productief gebruik.
Dat wil zeggen, data science is datgene wat betrekking heeft op het beheer van databases, opgeslagen in digitale bestanden, waaruit veel nuttige informatie kan worden gehaald als statistische indicatoren. Deze kunnen een bedrijf bijvoorbeeld helpen bij het nemen van zakelijke beslissingen.
Evenzo biedt datawetenschap hulpmiddelen die het niet alleen mogelijk maken om de beschikbare gegevens niet alleen te interpreteren, maar ook om bijvoorbeeld in afbeeldingen weer te geven. Zo hebben we onder andere het histogram, het staafdiagram, het cirkeldiagram.
Zoals kan worden afgeleid, is deze wetenschap interdisciplinair omdat het voornamelijk kennis van wiskunde, statistiek en informatica omvat.
Gegevenswetenschap en gegevenstypen
Er moet ook worden opgemerkt dat data science met twee soorten gegevens kan werken:
- gestructureerd: Het zijn de tabellen die zijn georganiseerd, zoals die tabellen met verschillende kolommen, elk met een andere categorie, zoals: naam, achternaam, leeftijd, identiteitsbewijsnummer, enz.
- Ongestructureerd: Die niet overeenkomen met een bepaald formaat, zoals een vrij geschreven tekst. In dat geval moet u de inhoud interpreteren en gegevens extraheren die beheerd kunnen worden.
Rekening houdend met alles wat is uitgelegd, moeten professionals die gespecialiseerd zijn in datawetenschap niet alleen beschikken over analytische vaardigheden, maar moeten ze ook in staat zijn om de inhoud van de verwerkte informatie over te brengen.
Belang van datawetenschap
Data science is belangrijk voor bedrijven of instellingen die met een grote hoeveelheid data moeten werken. Dit kan dus waardevolle informatie worden.
We kunnen datawetenschap relateren aan Big Data, dat bestaat uit het ontwikkelen van mechanismen die in staat zijn om enorme hoeveelheden data uit verschillende bronnen te verwerken en te beheren. Het doel is om ze om te zetten in informatie die door de mens kan worden geïnterpreteerd en die hem helpt bij het nemen van beslissingen.
Deze te verwerken gegevens kunnen afkomstig zijn van transacties tussen individuen en organisaties (zoals banktransacties), dagelijkse handelingen van mensen (zoals zoekopdrachten op internet), machines (zoals de GPS van de mobiele telefoon die registreert waar de gebruiker is geweest) of informatie biometrisch (zoals vingerafdruk).
Geschiedenis van datawetenschap
Het kan gezegd worden dat de Amerikaanse statisticus John Wilder Tukey in de jaren zestig pionierde met datawetenschap, waarbij hij het belang benadrukte van het analyseren van gegevens in plaats van het testen van statistische modellen.
Het duurde echter tot 1996 voordat de term datawetenschap voor het eerst werd gebruikt in de titel van een lezing, in de lezing genaamd: "Datawetenschap, classificatie en gerelateerde methoden." Dit in het kader van de ledenvergadering van de ‘International Federation of Classification Societies’ (IFCS) in Kobe, Japan.
Een andere belangrijke mijlpaal kwam in 2005 toen "Long-Live Digital Data Collections Enabling Research and Education in the 21st Century" werd gepubliceerd door The National Science Board. In dat document worden datawetenschappers gedefinieerd als computerexperts, database- en softwareprogrammeurs en professionals uit andere disciplines (zoals bibliothecarissen en archivarissen), die cruciaal zijn voor het succesvol beheren van een digitale dataverzameling.
Dit is echter nog een vakgebied dat nog in ontwikkeling is.