Atbilde 1:

Vispirms iemācīsimies Hadoop un tā ekosistēmu, tad automātiski rodas ideja, kas ir Hadoop un tā ekosistēmas.

Hadoop ir Java rakstīts atvērtā koda, mērogojams un kļūdaino tolerances ietvars. Tas efektīvi apstrādā lielu datu apjomu preču aparatūras klasterī. Hadoop ir ne tikai uzglabāšanas sistēma, bet arī platforma lielu datu glabāšanai, kā arī apstrādei.

  • Kas ir Hadoop ??

Hadoop ir ASF - Apache programmatūras fonda atvērtā koda rīks. Atklātā pirmkoda projekts nozīmē, ka tas ir brīvi pieejams, un mēs pat varam mainīt tā avota kodu atbilstoši prasībām. Ja kāda funkcionalitāte neatbilst jūsu vajadzībām, varat to mainīt atbilstoši savai vēlmei. Lielāko daļu Hadoop koda raksta Yahoo, IBM, Facebook, Cloudera.

Tas nodrošina efektīvu sistēmu darbu veikšanai vairākos klasteru mezglos. Clusterme ir sistēmu grupa, kas savienota caur LAN. Apache Hadoop nodrošina paralēlu datu apstrādi, jo tā vienlaikus darbojas vairākās mašīnās.

Noskatieties Hadoop ieviešanas video:

Hadoop sastāv no trim galvenajām daļām -

  • Hadoop izplatītā failu sistēma (HDFS) - tā ir vietnes Hadoop.Map-Reduce atmiņas slānis. Tas ir datu apstrādes apstrādes slānis Hadoop.YARN - tas ir Hadoop resursu pārvaldības slānis.

Tagad mācīsimies Hadoop ekosistēmas.

  • Hadoop ekosistēmu komponenti

Kā mēs redzam dažādus Hadoop komponentus Hadoop ekosistēmas attēlā.

1. Hadoop izplatītā failu sistēma

Tā ir vissvarīgākā Hadoop ekosistēmas sastāvdaļa. HDFS ir galvenā Hadoop glabāšanas sistēma. Hadoop sadalītā failu sistēma (HDFS) ir uz java balstīta failu sistēma, kas nodrošina mērogojamu, kļūdu toleranci, uzticamu un izmaksu ziņā efektīvu datu glabāšanu lieliem datiem. HDFS ir izplatīta failu sistēma, kas darbojas ar preču aparatūru. HDFS daudzām instalācijām jau ir konfigurēts ar noklusējuma konfigurāciju. Lielāko daļu laika ir nepieciešama lielu klasteru konfigurēšana. Hadoop tieši mijiedarbojas ar HDFS, izmantojot čaulas veida komandas.

HDFS komponenti

  • NameNodeDataNode

2. MapReduce

Hadoop MapReduce ir galvenā Hadoop sastāvdaļa, kas nodrošina datu apstrādi. MapReduce ir programmatūras ietvars, kas paredzēts, lai viegli rakstītu lietojumprogrammas, kas apstrādā milzīgo strukturēto un nestrukturēto datu daudzumu, kas glabājas Hadoop Distributed File sistēmā.

MapReduce programmas pēc būtības ir paralēlas, tāpēc ir ļoti noderīgas liela mēroga datu analīzei, izmantojot vairākas mašīnas klasterī. Tādējādi tas uzlabo klasteru paralēlās apstrādes ātrumu un uzticamību.

3. dzija

Hadoop YARN (vēl viens sarunu vedējs par resursiem) nodrošina resursu pārvaldību. YARN tiek saukta par Hadoop operētājsistēmu, jo tā ir atbildīga par darba slodžu pārvaldību un uzraudzību. Tas ļauj vairākiem datu apstrādes dzinējiem, piemēram, reāllaika straumēšanai un pakešu apstrādei, apstrādāt datus, kas glabājas vienā platformā.

Lai uzzinātu vairāk, atsaucieties uz šo

4. strops

Apache strops ir atvērtā pirmkoda datu noliktavu sistēma, kas paredzēta Hadoop failos saglabāto lielo datu kopu meklēšanai un analīzei. Nātrene veic trīs galvenās funkcijas: datu apkopošana, vaicāšana un analīze.

Stropā tiek izmantota valoda ar nosaukumu HiveQL (HQL), kas ir līdzīga SQL. HiveQL automātiski tulko SQL līdzīgus vaicājumus MapReduce darbos, kas tiks izpildīti Hadoop.

Skatīt stropu zemāk esošajā saitē:

Apmācība par stropu iesācējiem

5. Cūka

Apache Pig ir augsta līmeņa valodas platforma milzīgu datu kopu, kas tiek glabāti HDFS, analīzei un vaicājumiem. Cūka lieto PigLatin valodu. Tas ir ļoti līdzīgs SQL. Tas ielādē datus, piemēro nepieciešamos filtrus un izvada datus vajadzīgajā formātā. Programmu izpildei cūkgaļai nepieciešama Java izpildlaika vide.

Lai uzzinātu vairāk par PIG, izmantojiet zemāk esošo saiti:

PIG apmācība iesācējiem

6. HBase

Apache HBase ir izplatīta datu bāze, kas bija paredzēta strukturētu datu glabāšanai tabulās, kurās varētu būt miljardiem rindu un miljoniem kolonnu. HBase ir mērogojama, izplatīta un Nosql datu bāze, kas ir veidota virs HDFS. HBase, nodrošina reāllaika piekļuvi datu lasīšanai vai rakstīšanai HDFS.

Lai uzzinātu vairāk par HBase, izmantojiet zemāk esošo saiti:

HBase padziļināti

7. HCatalog

Tas ir Hadoop tabulu un krātuves pārvaldības slānis. HCatalog atbalsta dažādas Hadoop pieejamās sastāvdaļas, piemēram, MapReduce, Hive un Pig, lai viegli lasītu un rakstītu datus no kopas. HCatalog ir galvenā stropa sastāvdaļa, kas ļauj lietotājam saglabāt savus datus jebkurā formātā un struktūrā.

8. Avro

Tā ir vispopulārākā datu serializācijas sistēma. Avro ir atvērtā koda projekts, kas nodrošina datu serializāciju un datu apmaiņas pakalpojumus Hadoop. Šos pakalpojumus var izmantot kopā vai patstāvīgi. Ar lieliem datiem var apmainīties programmās, kas rakstītas dažādās valodās, izmantojot Avro.


Atbilde 2:

Norādīts no Hadoop galīgās rokasgrāmatas 1. nodaļas,

Lai gan Hadoop ir vislabāk pazīstams ar MapReduce un tā izplatīto failu sistēmu (HDFS, pārdēvēta par NDFS), šis termins tiek izmantots arī saistītu projektu saimei, kas ietilpst sadalītas skaitļošanas un liela mēroga datu apstrādes infrastruktūras jumtā.

Lielāko daļu no galvenajiem projektiem uztur Apache programmatūras fonds, kas nodrošina atbalstu atvērtā pirmkoda programmatūras projektu kopienai, ieskaitot sākotnējo HTTP serveri, no kura tas iegūst savu vārdu. Pieaugot Hadoop ekosistēmai, parādās arvien vairāk projektu, kas ne vienmēr tiek izvietoti Apache, kas sniedz papildu pakalpojumus Hadoop vai balstās uz kodolu, lai pievienotu augstāka līmeņa abstrakcijas.

Vairāk informācijas - Hadoop The Definitive Guide.


Atbilde 3:

Labs jautājums!

Hadoop ir atvērtā pirmkoda sistēma, kas ļauj uzglabāt un apstrādāt lielus datus izkliedētā vidē pa datoru klasteriem, izmantojot vienkāršus programmēšanas modeļus. Tas ir paredzēts, lai mērogošanu palielinātu no atsevišķiem serveriem līdz tūkstošiem mašīnu, no kurām katra piedāvā vietēju aprēķināšanu un glabāšanu.

Hadoop ekosistēma attiecas uz dažādiem Apache Hadoop programmatūras bibliotēkas komponentiem, kā arī uz papildierīcēm un rīkiem, ko Apache Software Foundation nodrošina šāda veida programmatūras projektiem, un uz veidiem, kā tie darbojas kopā.

Es ceru, ka jums tagad ir skaidrs ar koncepciju.

Ja atbilde bija noderīga, lūdzu, ATJAUNINIET un sekojiet Harshali Patel, lai iegūtu vairāk atbildes vietnēs Big Data un Hadoop.