Datasett

Et datasett (også kjent under anglisisme - datasettet , ofte brukt i noen spansktalende land) er en samling av data som vanligvis er tabellert.

Når det gjelder tabulerte data, inneholder et datasett verdiene for hver av variablene arrangert som kolonner, for eksempel høyden og vekten til et objekt, som tilsvarer hvert medlem av datasettet, som er ordnet i rader. Hver av disse verdiene er kjent med et datanavn . Datasettet kan også bestå av en samling dokumenter eller filer.

Datasett så store at tradisjonelle databehandlingsapplikasjoner ikke kan behandle dem kalles big data . [ 1 ]

Vitenskapelig metode

Se også: Prøvestørrelse og standardavvik .

Publiseringen av datasettene som brukes i et eksperiment er nøkkelen til deres reproduserbarhet , og det er flere og flere offentlige lover og forskrifter for vitenskapelige tidsskrifter som krever at de offentliggjøres for å unngå skjevheter .

Egenskaper

I følge studien er det en nøkkelfaktor for settets egenskaper: dispersjon , kurtosis , etc. [ 2 ]​ Verdiene kan være tall, som reelle tall eller heltall, for eksempel som representerer høyden til en person i centimeter, men de kan også være nominelle data (det vil si, ikke bestående av numeriske verdier), for for eksempel som representerer en persons etnisitet. Mer generelt kan verdiene være av hvilken som helst type som beskrives som målenivå. [ 3 ]

For hver variabel er verdiene normalt alle av samme type. Det kan imidlertid også mangle verdier, som må angis på en eller annen måte.

I statistikk kommer datasett vanligvis fra faktiske observasjoner oppnådd ved å prøve en statistisk populasjon, hvor hver rad tilsvarer observasjoner fra ett element i den populasjonen. I tillegg kan datasett genereres av algoritmer med det formål å teste visse typer programvare. Noen moderne programvare for statistisk analyse , for eksempel SPSS, presenterer fortsatt dataene sine i den klassiske formen for datasett. Hvis data mangler eller er mistenkt, kan en imputasjonsmetode brukes for å fullføre et datasett.

Se også

Referanser

  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). " ' Big Data': Store kunnskapshull innen internett" . International Journal of Internet Science 7 : 1-5. 
  2. Jan M. Żytkow, Jan Rauch (1999). Prinsipper for datautvinning og kunnskapsoppdagelse . ISBN  978-3-540-66490-1 . 
  3. ^ Frank Kane (2017). Temme Big Data med Apache Spark og Python . Packt. ISBN  978-1787287945 . 

Eksterne lenker