Hortonworks Connected Gegevens Platforms: Meer dan som der delen

De “Connected Gegevens Platforms ‘dat Hortonworks geïntroduceerd op 1 maart zijn de bekende Hortonworks Data Platform (HDP) Hadoop distributie en haar Hortonworks DataFlow (HDF) platform gericht op het verzamelen, curator en routing real-time data vanuit elke bron naar elke bestemming . HDP en HDF kunnen onafhankelijk van elkaar worden gebruikt, maar hier is hoe ze in elkaar passen om een ​​samenhangend platform voor het beheren en analyseren van streaming en historische gegevens worden.

Interesse in streaming data-analyse is gestaag gegroeid in de afgelopen jaren, maar de opkomst van Internet of Things (IoT) mogelijkheden heeft interesse stijgende. Het ding is, streaming-gegevens use cases zoals verbonden-auto’s, slimme olievelden, smart utilities en precisie geneeskunde vereisen vaak analyse van historische gegevens, die context doet denken aan de real-time inzichten. Dat is de reden waarom HDF en HDP moeten worden aangesloten.

Deze week Hortonworks introduceerde HDP 2.4 release. Opmerkelijke verbeteringen omvatten steun voor en bundeling van Apache Spark 1.6 software en verbeterde systeembeheer en externe mogelijkheden voor optimalisatie door middel van Apache Ambari 2.2 en SmartSense 2.2. Ambari, de open source software, kreeg een Express Upgrade functie waarmee u snel kunt stoppen banen, software bij te werken en het cluster en stromend banen herstart allemaal binnen een uur, zelfs op grote systemen. SmartSense is een “telefoon thuis” mogelijkheid dat het systeem-performance parameters Hortonworks, welke problemen kunnen diagnosticeren en bieden meer dan 250 aanbevelingen op het optimaliseren van de prestaties en beschikbaarheid van het systeem stuurt.

De grootste ontwikkeling met HDP 2.4 is een nieuwe distributiestrategie met twee cadensen afzonderlijk persbericht. Core Apache Hadoop componenten, waaronder HDFS, MapReduce en Garen evenals Apache Zookeeper zal jaarlijks worden geactualiseerd, in lijn met de andere leden van het consortium ODPi. Hortonworks is bespoediging van andere, nieuwere mogelijkheden door middel van nieuwe “Extended Services” releases, die zo snel als ze beschikbaar kunnen worden gesteld zullen worden aangeboden. Een voorbeeld van een Extended Service is ondersteuning voor Spark 1.6. Andere kandidaten voor deze release aanpak omvat Hive, HBase, Ambari “en meer”, zegt Hortonworks.

MyPOV op HDP 2.4: Ik hou van deze tweeledige strategie met de stabiele, langzamer bewegende kern aangevuld het hele jaar door uitgebreide dienstverlening. Hortonworks is achtergebleven Cloudera in het verleden in het toevoegen van een aantal nieuwe mogelijkheden die klanten te popelen om te gebruiken zijn geweest. Dit is een goede aanpak van de snelle tracking mogelijkheden die in de vraag (hoewel ze kunnen vermoedelijk geen wijzigingen aanbrengen in Hadoop kerncomponenten vereist). De aanpak vereenvoudigt ook de bevoegdheid van andere distributeurs van ODPi-gebaseerde distributies.

HDF is Hortonwork’s streaming data platform op basis van Apache Nifi en aangepast van Onyara overname vorig jaar. Upgrades met de verhuizing HDF 1.2, die beschikbaar zijn later deze maand zal zijn, zijn onder andere de integratie van Apache Kafka en Apache Storm streaming analytics motoren. De release krijgt ook ondersteuning voor Kerberos voor centrale authenticatie verschillende applicaties. Op de roadmap op korte termijn is de ondersteuning voor Spark Streaming, die beschikbaar zijn in het begin van de zomer zou moeten zijn, aldus Hortonworks.

MyPOV op HDF: Er is veel te graag in Hortonworks DataFlow, met inbegrip van een drag-and-drop aanpak voor de ontwikkeling van de routing, transformatie en bemiddeling binnen gegevensstromen. Het biedt ook ingebouwde data-beveiliging en data-herkomst mogelijkheden. Eén exec beschreef het als “een FedEx voor het streamen van data,” het verstrekken van het digitale equivalent van een logistiek systeem voor het routeren van streaming data en het bijhouden van bronnen en wijzigingen in de digitale informatie langs de weg. Het ecosysteem lijkt sterk, met ondersteuning voor meer dan 130 processors voor systemen met inbegrip van Kafka, Couchbase, Microsoft Azure Event Hub en Splunk.

Hoe HDP en HDF zijn aangesloten

Hortonworks wil een multi-product bedrijf, dus het heeft benadrukt dat HDP en HDF zullen worden verkocht en kunnen onafhankelijk van elkaar worden gebruikt. HDF kan routegegevens aan (en trekken uit) andere Hadoop distributies, databases, zoals Cassandra en cloud-gebaseerde bronnen, zoals Amazon S3.

We duiken in, waar ivd de grootste impact en wat het betekent voor de toekomst van big data analytics zal hebben.

Wanneer use cases overspannen data in beweging en data-op-rust, HDP en HDF hebben gemeenschappelijkheden dat maakt ze gemakkelijker om samen te gebruiken. Bijvoorbeeld, zowel HDP en HDF aandeel meer dan 70 data processors en beide gebruiken Ambari voor systeem implementatie en beheer. Wat meer is, Hortonworks belooft dat SmartSense, en de Ranger en Atlas veiligheid en governance-projecten zal ook beide platforms.

MyPOV op Connected Platforms: De noodzaak voor de combinatie van streaming en historische data-analyse is opduiken in vele kwartalen. Het werd aangeprezen als een voordeel van Spark Streaming 2,0 op de recente Spark Summit East evenement, en MapR heeft ook een strategie om beide vormen van data te pakken in één platform.

Hype rond streaming data mogelijkheden is niets nieuws. Meer dan een decennium geleden, werden complex event processing systemen aangeprezen als “ready to mainstream te gaan.” Eindelijk, ik denk dat we eindelijk zien tekenen dat het streamen van data-analyse is in opkomst. De mobiele, social, cloud en big data trends te stellen het podium en misschien, heel misschien, de belofte van het ivd mogelijkheden duwt het over de top.

PS: Hortonworks ook uitgelicht twee veelbelovende Spark gerelateerde ontwikkelingen deze week. Ten eerste, het is de scheepvaart een voorbeeld van Apache Zeppelin met HDP 2.4, het verstrekken van een codering-vrij UI voor visualisatie en een notebook-achtige benadering aan het werken aan Spark. Dit is een usability verbetering en democratisering tool die hard behoeften Spark. Ten tweede, in een partnership met HP Enterprise Labs, zal Hortonworks brengen om de bron een geoptimaliseerde shuffle engine voor Spark dat HP Enterprise zegt zal 5X bieden aan 15X prestatieverbeteringen alsook optimaal gebruik van het geheugen te openen. Deze technologie heeft geen status van het project nog, laat staan ​​de acceptatie van de Spark gemeenschap, maar Hortonworks zegt dat het zal de software met HDP verwachting later dit jaar.

Binnen Hortonworks Connected data Platforms

Spark Summit East Report: Enterprise beroep groeit; Strata + Hadoop World Report: Vonk, Real-Time In de schijnwerpers

Social Enterprise; LinkedIn onthult haar nieuwe blogging platform; Big Data Analytics, Is dit de leeftijd van Big OLAP;? Big Data Analytics; DataRobot gericht op low-opknoping fruit van de gegevens wetenschap te automatiseren; Big Data Analytics; MapR oprichter John Schroeder treden naar beneden, COO te vervangen

LinkedIn onthult haar nieuwe blogging platform

Is dit de leeftijd van Big OLAP?

DataRobot streeft naar laaghangend fruit van data science automatiseren

MapR oprichter John Schroeder treden naar beneden, COO te vervangen

Hortonworks DataFlow 1.2