Clearstory CEO: Hoe Apache Spark helpt brengen analytics voor de gemiddelde Joe

Het misbruik van de data-analyse is goed gedocumenteerd – gegevens worden shoehorned om; back-up verschanste standpunten, selectief gebruikt in kleine bedrijven machtsstrijd, of, gewoon verkeerd begrepen.

Maar zelfs wanneer dit juist gebeurt, met een redelijke hypothese, gevolgd door strenge testen, soms de traditionele aanpak kunnen komen kort voor de bedrijven in dienst is, volgens Sharmila Mulligan, CEO van Silicon Valley startup clearstory Data.

Die tekortkomingen kan zijn omdat conventionele analytics is te smal en niet te onderhandelen over de enorme omvang van de diverse gegevens die vanuit meerdere bronnen, of in ieder geval niet zo snel genoeg te doen.

“Dit hele idee van je kijkt naar data met een hypothese of een intuïtie en je blijft proberen om de weergave of het dashboard te dwingen in die – bedrijf na bedrijf lijdt zij hebben gedaan op die manier, ‘zei ze.

Apache Spark: Hoe Hortonworks bedoeld om vuur van de in-memory engine; IBM kampioenen cloud, big data, open source de gezondheidszorg te transformeren op TED-top, Big data: Nog steeds achtervolgd door vrees voor de veiligheid, maar in Europa een inhaalslag; Waarom big data evangelisten moeten zijn verzonden naar heropvoedingskampen

[Ze] letterlijk ontbrekende top-line nummers, ontbrekende concurrerende bedreigingen, het missen van allerlei dingen, omdat ze hun mening hebben beperkt. Traditionele analytische oplossingen zijn niet echt ontworpen voor de volumes en dat soort gegevens variëteit.

Mulligan, die mede-oprichter clearstory in eind 2011, waarbij de twee benaderingen worden momenteel naast elkaar in data analytics.

“Er is de langlopende analyse van die gegevens wetenschappers doen, dat is je iets dat je nodig hebt om te gaan en te analyseren over een langere periode te zoeken naar de anomalieën en patronen voordat je daadwerkelijk iets kunt overwegen hebt, ‘zei ze.

Niemand verbeeldt big data analytics is een leien dakje, maar de omvang van de bij de uitvoering van de technologie problemen kunnen groter dan mensen denken.

Dat is een data scientist probleem: ‘Laten we blijven observeren, observeren, lopen een model, lopen een ander model’ en dat hele ding blijft gaan. Het zou een analyse u niets concluderen uit zes of acht maanden. Maar wat je hoeft te sluiten aan het einde van het zou een enorme bevinding.

Aan de andere kant vonden Mulligan noemt fast-cycle geconvergeerde data-analyse, die over de mogelijkheid om gegevens te analyseren in de loop van de dag. Haar visie is dat bedrijven routinematig te kopen in gegevensbronnen om hun eigen vergroten en toch niet over de middelen in de mankracht en de technologie om ze te exploiteren.

Social Enterprise; LinkedIn onthult haar nieuwe blogging platform; Big Data Analytics, Is dit de leeftijd van Big OLAP;? Big Data Analytics; DataRobot gericht op low-opknoping fruit van de gegevens wetenschap te automatiseren; Big Data Analytics; MapR oprichter John Schroeder treden naar beneden, COO te vervangen

Haar bedrijf biedt een back-end systeem op basis van de Apache Spark open-source data analytics cluster kader, en een front-end applicatie, die zit op de top van maximaal 24 interne en externe databronnen. Vorige week, clearstory onthulde haar Collaborative storyboards cloud service.

Ten eerste, de back-end engine voert gegevens gevolgtrekking en profilering afmetingen en semantiek te identificeren voor de harmonisatie van gegevens – het spotten van de relaties tussen databronnen.

Op dat moment de gemengde en geharmoniseerde gegevens worden gepresenteerd aan de gebruiker door de front-end applicatie, die een groep van het personeel in staat stelt dezelfde gegevens gelijktijdig bekijken, zelfs het toevoegen van meer gegevens zonder de noodzaak van aanvullende modellering.

“Dat is waar de samenwerking binnen komt. Op de lange cyclus, data scientist spul, als je iemand iets te sturen in PowerPoint eens in de zes maanden of drie maanden, het is OK. Maar als je op zoek bent naar dingen intra-day en de dagelijkse, u kan zich niet veroorloven om mensen te kijken naar inconsistent standpunten, “zei Mulligan.

Hoewel de technologie om te draaien big data projecten kunnen worden openstellen voor meer bedrijven, is er vooruitgang belemmerd door een gebrek aan vaardigheden en een corporate voorkeur voor instinct.

Door verschillende mensen bij elkaar te brengen in de hele organisatie door middel van de front-end applicatie en samenwerken in real time op deze inzichten, die ze kunnen manoeuvreren door zichzelf, zijn ze in staat om waarnemingen konden ze niet anders voor te bereiken te bereiken. Je doet afstand met de traditionele stijve pre-beperkt uitzicht.

Deze aanpak bestaat uit twee soorten gebruikers: de medewerkers die uiteindelijk verbruikt en de gegevens te analyseren, en de data stewards die bepalen welke bronnen moeten worden gebruikt voor deze specifieke regelmatige analyse, of de gegevens ligt in de repositories, of externe of syndicated feeds.

“Het merendeel van de gebruikers zijn zakelijke gebruikers frontlinie. Ze konden mid-office en front-office mensen en zij zijn degenen die de zakelijke vragen en het bedrijfsleven problemen en bladert door de inzichten die in staat zijn om dieper te verkennen en te krijgen om de antwoorden, “zei ze.

Op de back-end en hoe we het doen data harmonisatie, hebben we veel in IP we gebouwd rond Spark geïnvesteerd. We waren betrokken bij Spark toen het nog een project in Berkeley en het hoofd van Spark is een adviseur. We hebben veel in Spark zetten zodat u deze zeer snel heen-en-weer-analyse te doen, want er is geen manier waarop je kunt het doen, tenzij al die gegevens zit in een zeer efficiënte in-memory laag.

Mulligan zei clearstory technologie wordt vooral wordt in beslag genomen door bedrijven in verpakte consumentengoederen, media en entertainment, gezondheidszorg en retail.

“De factoren die tot een betere dicht tarieven bij te dragen in een winkel zijn een hele reeks van datasignalen – van de klantenservice problemen, om parkeerplaatsen zijn te vol, dus minder om mensen in de winkel, om voetverkeer per afdeling, om merchandising er. zijn veel factoren die buiten de typische dingen die je zou denken die bijdragen aan tarief te sluiten, “zei ze.

Of u enthousiast over het concept van big data bent of denkt dat het bevat weinig nieuws, het is onmiskenbaar een gebied rijp voor misverstanden.

Bedrijven zoals food-producten onderneming Danone hebben een aantal mensen te kijken naar een mogelijke supply-chain probleem wanneer zij een daling van de omzet uit de cijfers die vanuit point-of-sale aanbieders te detecteren.

“Ze hebben alle gegevens uit over de gehele supply chain te begrijpen is het een on-shelf verkoopbaarheid probleem is, is het dat de inventaris niet aankomt, is het omdat de concurrent de prijzen daalden 10 cent, is het omdat het product is verlopen maar het zit op de plank? ‘ Mulligan gezegd.

Gebruiker bestuur is een belangrijke kwestie, met data stewards en deskundigen verschillende rechten gegeven aan die genoten door gebruikers verderop in de meldlijn.

“Dit vermogen om de juiste rechten om een ​​deel van een data-verhaal te zijn en in staat zijn om dingen te zien zoals ze zich vernieuwen. – Het is een vrij krachtig ding Dus veel bedrijven hebben ons verteld hoe het beheer van de verkeerde dingen heeft gesloten, omdat ze hebben ontvangen zes dashboards die te laat of geïnterpreteerd de verkeerde dingen of ze niet eens het inzicht zien als gevolg van de beperking van hoe het is het opzetten van de dashboards, “zei ze.

Dit alles wordt meer real time en collaborative, zodat alle mensen die behoefte hebben aan, zien. Het neemt al die ontbrekende informatie dat er gebeurt als je anders een zeer rigide manier hoe gegevens en informatie worden doorgegeven van persoon tot persoon.

LinkedIn onthult haar nieuwe blogging platform

Is dit de leeftijd van Big OLAP?

DataRobot streeft naar laaghangend fruit van data science automatiseren

MapR oprichter John Schroeder treden naar beneden, COO te vervangen

big data