Vai datu zinātne un lielie dati bija līdzīgi? Vai starp tām ir atšķirība, vai arī tie abi nozīmē vienu un to pašu?


Atbilde 1:

Nē, noteikti nē.

Apspriedīsim šo problēmu trīs daļās:

Datu zinātne ir specializācija dažādu problēmu risināšanai, izmantojot dažādas metodes no statistikas, kombinatorikas, matemātikas un datorzinātnes utt.)

Lielie dati: lielie dati plašā skatījumā ir jēdziens, kā rīkoties ar milzīgiem datiem (termins milzīgs ir relatīvs) ārpus tradicionālajām metodēm.

Hadoop: Hadoop ir ietvars vai, mēs varam teikt, vide, kuru var izmantot, lai pārvaldītu un analizētu milzīgas datu kopas, izmantojot dažādus rīkus (PIG, HIVE, Scoop, Fume utt.)

Atsauces:

Hadoop apmācība

Datu zinātne

Lieli dati


Atbilde 2:

Es domāju, ka jūs domājāt, ka “datu zinātne” un “Big Data Hadoop” ir divas dažādas lietas, bet tās patiesībā ir trīs. Datu zinātnei, Big Data un Hadoop ir dažādas nozīmes.

Pieņemsim, ka esat 10. klases students. Jums ir uzticēts darbs, lai atrastu vidējo atzīmju līmeni katrā priekšmetā, kuru ieguvuši klasesbiedri. Jūsu klasē ir 50 studenti, kuri katrs studē 5 priekšmetus. Vidējā līmeņa noteikšana nav raķešu zinātne, tāpēc jūs to visu darāt Excel lapā. Tagad jūsu skolotājs lūdz jūs veikt vienādu aprēķinu visām A, B un C sadaļām, kurās piedalās apmēram 150 skolēni. Atkal ir pietiekama Excel lapa. Tagad jūs vēlaties uzzināt, kādas būtu vidējās atzīmes par zinātni, ko ieguvuši 10. klases skolēni visā valstī (2016. gadā tā ir aptuveni 14 311 861 skolēns). Iespējams, ka Excel datu lapā nevar uzglabāt tik daudz datu, lai jūs to saglabātu datu bāzē, piemēram, MySQL vai Oracle. Jūs palaižat SQL vaicājumu, lai atrastu vidējo. Tagad jums ir interese uzzināt tendences, kā vidējie rādītāji ir mainījušies kopš pēdējiem 20 gadiem Science 10. klasē, kas ir aptuveni 3000000 ierakstu. Ja jums būtu jāatrod visu 5 priekšmetu vidējais rādītājs, nevis tikai zinātne, jūs apstrādātu 30000000 x 5 ierakstus. Tagad ir daudz datu, ko sauc arī par “lielajiem datiem”.

Big Data - ārkārtīgi lielas datu kopas, kuras var analizēt skaitļošanas ceļā, lai atklātu modeļus, tendences un asociācijas, it īpaši saistībā ar cilvēku izturēšanos un mijiedarbību. - No Wikipedia

Jums, iespējams, nevajadzētu uzglabāt tik daudz datu savā MySQL vai Oracle un palaist SQL vaicājumu miljoniem ierakstu. Es nekad neesmu apstrādājis tik daudz datu SQL datu bāzē, lai nekomentētu tā darbību, taču es izmantoju Hadoop, lai apstrādātu lielu datu kopu daudzumu, kas ir daudz lielāks nekā studentu datu bāze, par kuru mēs runājam. Hadoop ir sistēma, kas datus izplata vairākās sistēmās, lai visas sistēmas varētu veikt aprēķinus paralēli, tādējādi palielinot kopējo aprēķināšanas ātrumu, ko sauc arī par sadalīto skaitļošanu. Hadoop ir sava failu sistēma, kas ir Big Data datu glabāšanas sistēma.

Datu zinātne nespeciālistu izpratnē ir zinātne, kā saprast, ko darīt ar lieliem vai maziem datiem. Līdz šim mēs tikai centāmies iegūt punktu skaita vidējo rādītāju, bet datu zinātnieks pārsniedza rādītājus un meklēja veidus, kā atrast to, ko var izdarīt ar vidējo. Organizācijai viņš palīdzēs viņiem pieņemt biznesa lēmumus un atrast modeļus, kas palīdzētu priekšniekiem pieņemt labākus lēmumus un piešķirt resursus peļņas palielināšanai. Lielākā daļa datu zinātnieku, iespējams, pat neizmanto Hadoop, ja viņi nenodarbojas ar Big Data, aprēķiniem viņi parasti izmanto R lang vai Python.

Big Data ir jēdziens.Hadoop ir rīks. Datu zinātne ir datorzinātnes nozare.


Atbilde 3:

Es domāju, ka jūs domājāt, ka “datu zinātne” un “Big Data Hadoop” ir divas dažādas lietas, bet tās patiesībā ir trīs. Datu zinātnei, Big Data un Hadoop ir dažādas nozīmes.

Pieņemsim, ka esat 10. klases students. Jums ir uzticēts darbs, lai atrastu vidējo atzīmju līmeni katrā priekšmetā, kuru ieguvuši klasesbiedri. Jūsu klasē ir 50 studenti, kuri katrs studē 5 priekšmetus. Vidējā līmeņa noteikšana nav raķešu zinātne, tāpēc jūs to visu darāt Excel lapā. Tagad jūsu skolotājs lūdz jūs veikt vienādu aprēķinu visām A, B un C sadaļām, kurās piedalās apmēram 150 skolēni. Atkal ir pietiekama Excel lapa. Tagad jūs vēlaties uzzināt, kādas būtu vidējās atzīmes par zinātni, ko ieguvuši 10. klases skolēni visā valstī (2016. gadā tā ir aptuveni 14 311 861 skolēns). Iespējams, ka Excel datu lapā nevar uzglabāt tik daudz datu, lai jūs to saglabātu datu bāzē, piemēram, MySQL vai Oracle. Jūs palaižat SQL vaicājumu, lai atrastu vidējo. Tagad jums ir interese uzzināt tendences, kā vidējie rādītāji ir mainījušies kopš pēdējiem 20 gadiem Science 10. klasē, kas ir aptuveni 3000000 ierakstu. Ja jums būtu jāatrod visu 5 priekšmetu vidējais rādītājs, nevis tikai zinātne, jūs apstrādātu 30000000 x 5 ierakstus. Tagad ir daudz datu, ko sauc arī par “lielajiem datiem”.

Big Data - ārkārtīgi lielas datu kopas, kuras var analizēt skaitļošanas ceļā, lai atklātu modeļus, tendences un asociācijas, it īpaši saistībā ar cilvēku izturēšanos un mijiedarbību. - No Wikipedia

Jums, iespējams, nevajadzētu uzglabāt tik daudz datu savā MySQL vai Oracle un palaist SQL vaicājumu miljoniem ierakstu. Es nekad neesmu apstrādājis tik daudz datu SQL datu bāzē, lai nekomentētu tā darbību, taču es izmantoju Hadoop, lai apstrādātu lielu datu kopu daudzumu, kas ir daudz lielāks nekā studentu datu bāze, par kuru mēs runājam. Hadoop ir sistēma, kas datus izplata vairākās sistēmās, lai visas sistēmas varētu veikt aprēķinus paralēli, tādējādi palielinot kopējo aprēķināšanas ātrumu, ko sauc arī par sadalīto skaitļošanu. Hadoop ir sava failu sistēma, kas ir Big Data datu glabāšanas sistēma.

Datu zinātne nespeciālistu izpratnē ir zinātne, kā saprast, ko darīt ar lieliem vai maziem datiem. Līdz šim mēs tikai centāmies iegūt punktu skaita vidējo rādītāju, bet datu zinātnieks pārsniedza rādītājus un meklēja veidus, kā atrast to, ko var izdarīt ar vidējo. Organizācijai viņš palīdzēs viņiem pieņemt biznesa lēmumus un atrast modeļus, kas palīdzētu priekšniekiem pieņemt labākus lēmumus un piešķirt resursus peļņas palielināšanai. Lielākā daļa datu zinātnieku, iespējams, pat neizmanto Hadoop, ja viņi nenodarbojas ar Big Data, aprēķiniem viņi parasti izmanto R lang vai Python.

Big Data ir jēdziens.Hadoop ir rīks. Datu zinātne ir datorzinātnes nozare.