Conjunt de dades

Diversos gràfics del conjunt de dades multivariant del conjunt de dades de flors d' iris introduït per Ronald Fisher (1936).[1]

Un conjunt de dades és una col·lecció de dades. En el cas de les dades tabulars, un conjunt de dades correspon a una o més taules de base de dades, on cada columna d'una taula representa una variable determinada i cada fila correspon a un registre determinat del conjunt de dades en qüestió. El conjunt de dades enumera els valors de cadascuna de les variables, com per exemple l'alçada i el pes d'un objecte, per a cada membre del conjunt de dades. Els conjunts de dades també poden consistir en una col·lecció de documents o fitxers.[2]

En la disciplina de dades obertes, el conjunt de dades és la unitat per mesurar la informació alliberada en un dipòsit públic de dades obertes. El portal europeu data.europa.eu agrupa més d'un milió de conjunts de dades.[3] Alguns altres problemes (fonts de dades en temps real,[4] conjunts de dades no relacionals, etc.) augmenten la dificultat per arribar a un consens al respecte.[4]

Diverses característiques defineixen l'estructura i les propietats d'un conjunt de dades. Aquests inclouen el nombre i els tipus d'atributs o variables, i diverses mesures estadístiques aplicables als mateixos, com ara la desviació estàndard i la curtosi.Jan M. Żytkow, Jan Rauch. Principles of data mining and knowledge discovery, 2000. ISBN 978-3-540-66490-1.  Principis de mineria de dades i descobriment de coneixement . ISBN 978-3-540-66490-1.[5]

En les estadístiques, els conjunts de dades solen provenir d'observacions reals obtingudes mitjançant el mostreig d'una població estadística, i cada fila correspon a les observacions sobre un element d'aquesta població. Els conjunts de dades també es poden generar mitjançant algorismes amb el propòsit de provar certs tipus de programari. Alguns programes moderns d'anàlisi estadística com SPSS encara presenten les seves dades de la manera clàssica de conjunt de dades. Si les dades falten o són sospitoses, es pot utilitzar un mètode d'imputació per completar un conjunt de dades.[6]

Diversos conjunts de dades clàssics s'han utilitzat àmpliament a la literatura estadística:

  • Conjunt de dades de flors d'iris: conjunt de dades multivariant introduït per Ronald Fisher (1936).[7]
  • Base de dades MNIST : imatges de dígits escrits a mà que s'utilitzen habitualment per provar algorismes de classificació, agrupació i processament d'imatges
  • Anàlisi de dades categòriques: conjunts de dades utilitzats al llibre, An Introduction to Categorical Data Analysis .
  • Estadístiques robustes : conjunts de dades utilitzats en regressió robusta i detecció de valors atípics (Rousseeuw i Leroy, 1968). S'ofereix en línia a la Universitat de Colònia.
  • Sèries temporals: les dades utilitzades al llibre de Chatfield, The Analysis of Time Series, són proporcionades en línia per StatLib.
  • Valors extrems: les dades utilitzades al llibre, An Introduction to the Statistical Modeling of Extreme Values són una instantània de les dades tal com va ser proporcionada en línia per Stuart Coles, l'autor del llibre.
  • Anàlisi de dades bayesianes: Andrew Gelman, un dels autors del llibre, proporciona en línia les dades utilitzades al llibre.
  • Les dades del fetge de Bupa: s'utilitzen en diversos articles de la literatura d'aprenentatge automàtic (mineria de dades).
  • Quartet d'Anscombe: petit conjunt de dades que il·lustra la importància de representar gràficament les dades per evitar fal·làcies estadístiques.

Referències

  1. Fisher, R.A. Annals of Eugenics, 7, 2, 1963, pàg. 179–188. DOI: 10.1111/j.1469-1809.1936.tb02137.x [Consulta: 22 maig 2007].
  2. Snijders, C.; Matzat, U.; Reips, U.-D. «Còpia arxivada». International Journal of Internet Science, 7, 2012, pàg. 1–5. Arxivat de l'original el 2019-11-23 [Consulta: 29 gener 2023].
  3. «European open data portal». European open data portal. European Commission. [Consulta: 23 setembre 2016].
  4. 4,0 4,1 Atz, U «Còpia arxivada». CEDEM 2014 Proceedings, 2014. Arxivat de l'original el 2016-10-17 [Consulta: 1r agost 2016].
  5. «Supplemental Information 3: Scatterplot with density for all factors decomposed by using SC-JNMF (Xin dataset)» (en anglès). http://dx.doi.org.+[Consulta: 29 gener 2023].
  6. United Nations Statistical Commission. Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies (en anglès). United Nations Publications, 2007, p. 20. ISBN 978-9211169522. 
  7. Fisher, R.A. «Còpia arxivada». Annals of Eugenics, 7, 2, 1963, pàg. 179–188. Arxivat de l'original el 2011-04-12. DOI: 10.1111/j.1469-1809.1936.tb02137.x [Consulta: 22 maig 2007].