Casa Àudio Aprofitament de la firehose: obtenint valor empresarial de l'analítica de streaming: transcripció del webinar

Aprofitament de la firehose: obtenint valor empresarial de l'analítica de streaming: transcripció del webinar

Anonim

Per personal de Techopedia, 24 de febrer de 2016

A la venda : la presentadora Rebecca Jozwiak discuteix analitzacions de streaming amb grans experts del sector.

Actualment no teniu la sessió iniciada. Inicieu la sessió o registreu-vos per veure el vídeo.

Rebecca Jozwiak: Senyores i senyors, hola i benvinguts a Hot Technologies del 2016! El títol d'avui és "Aprofitar el Firehose: Obtenir valor empresarial de la transmissió d'Analytics". Aquesta és Rebecca Jozwiak. Sóc el segon que té el comandament de l'amfitrió de transmissions web sempre que el nostre estimat Eric Kavanagh no pugui estar aquí, així que és molt agradable veure molts de vosaltres avui mateix.

Aquest episodi és una mica diferent dels altres. Hem parlat del que fa calor i, per descomptat, aquest any fa molta calor. Els darrers anys han estat calents. Sempre hi ha coses noves. Avui parlem d’analítica de streaming. La transmissió d’analítica és una mena de nova. Per descomptat, la transmissió de dades, el centre, les dades RFID, no són necessàriament noves. Però en el context de les arquitectures de dades, hem estat centrats en dades en repòs des de fa dècades. Bases de dades, sistemes d’arxius, dipòsits de dades, tot amb l’objectiu principalment de processament per lots. Però ara amb el canvi de crear valor a partir de dades de transmissió, emocions de dades, alguns ho diuen fluxos vius, realment requereixen una arquitectura basada en flux, no les dades en arquitectures en repòs amb què hem estat acostumats i que ha de ser capaç de maneig de la ràpida ingestió, processament en temps real o gairebé en temps real. Ha de ser capaç d’atendre no només l’Internet de les coses, sinó la Internet de tot.

Per descomptat, idealment, estaria bé que les dues arquitectures visquessin al costat, una mà rentant-se l’altra, per així dir-ho. Si bé les dades d’abans, de setmanes, les d’anys encara tenen, naturalment, valor, analítica històrica, anàlisi de tendències, són les dades en directe que impulsen la intel·ligència en viu en aquests dies i és per això que les analítiques de streaming són tan importants.

Avui parlo més sobre això. Tenim el nostre científic de dades, Dez Blanchfield, que truca des d’Austràlia. Ara és a primera hora del matí. Tenim el nostre analista en cap, el doctor Robin Bloor. Ens uneix Anand Venugopal, cap de producte de StreamAnalytix a Impetus Technologies. Estan realment centrats en l’aspecte d’analítica de streaming d’aquest espai.

Amb això, vaig a tirar endavant i a passar a Dez.

Dez Blanchfield: Gràcies. Necessito agafar el control de la pantalla aquí i desviar-ho.

Rebecca Jozwiak: Aquí vas.

Dez Blanchfield: Mentre estem agafant les diapositives, deixeu-me només cobrir el tema principal.

Vaig a mantenir un nivell força alt i el mantindré aproximadament uns 10 minuts. Aquest és un tema molt gran. Vaig participar en un esdeveniment on vam passar de dos a tres dies aprofundint en els detalls de què és el processament de fluxos i els marcs actuals que estem desenvolupant i què hauria de significar fer analítiques en aquests fluxos de gran volum.

Simplement aclarirem el que volem dir mitjançant la transmissió d’analítica i, a continuació, aprofundirem sobre si es pot derivar valor empresarial perquè és realment el que busquen les empreses. Busquen que la gent els expliqui de manera ràpida i succinta, d’on puc obtenir valor aplicant algun tipus d’analítica a les nostres dades de flux?

Què és l'anàlisi de streaming?

Les analítiques de streaming proporcionen a les organitzacions una manera d’extreure valor de les dades de gran volum i alta velocitat que han arribat a través del negoci en diverses formes en moviment. La diferència significativa aquí és que hem tingut una llarga història de desenvolupament d’analítiques i d’objectius i visions de dades que hem estat processant en repòs des de fa dècades des de que es va inventar el mainframe. El canvi de paradigma massiu que hem vist durant els últims tres o cinc anys en el que anomenem “escala web” està aprofitant els fluxos de dades que ens arriben en temps real o prop de temps real i no només processant i cercant correlació d’esdeveniments o es desencadena els esdeveniments però realitzen analítiques en detall sobre aquests fluxos. És un canvi significatiu en el que hem estat fent abans, que és recopilar dades, posar-lo en algun tipus de repositori, bases de dades tradicionalment actuals, grans marcs de dades grans com la plataforma Hadoop i realitzar processaments en mode batch per aconseguir-ho. algun tipus de coneixement.

Ens ho agafem molt bé per fer-ho de forma ràpida i provant moltes coses de ferro, però encara estem capturant dades, emmagatzemant-les i, després, mirar-les i obtenir algun tipus d’informació o analítica. El canvi a realitzar aquestes analítiques a mesura que es transmeten les dades ha estat una àrea de creixement molt nova i emocionant per als tipus de coses que succeeixen al voltant de les grans dades. Requereix un enfocament completament diferent per capturar, emmagatzemar i processar i realitzar analítiques a.

Un dels motors clau per al canvi i l’enfocament a realitzar analítiques en el flux és que podeu obtenir un valor empresarial important obtenint aquestes dades amb més rapidesa i facilitat a mesura que us arribin les dades, ja que la informació es posa a la vostra disposició. La idea de fer processament de final de dia ja no és rellevant en determinades indústries. Volem ser capaços de fer les analítiques sobre la marxa. Al final del dia, ja sabem què ha passat tal i com ha passat en lloc de arribar al final del dia i fer una feina de 24 hores i obtenir aquesta informació.

L’analítica de streaming consisteix a tocar directament a aquest flux, mentre que els fluxos de dades solen ser múltiples fluxos de volums molt elevats de dades i dades que ens arriben en moviment molt, molt ràpidament i obtenen visions o analítiques d’aquests fluxos, ja que ens arriben per oposició. permetre que surti en repòs i realitzar anàlisis sobre ells.

Com he comentat, hem tingut dècades i dècades executant el que jo anomeno analítica de lots. He posat una imatge molt maca aquí. Aquesta és la imatge d'un cavaller que es trobava davant d'un ordinador burlat que va ser creat per RAND Corporation fa una vida i és el que veien un ordinador d'una casa. El més interessant és que fins i tot aleshores tenien aquest concepte de tots aquests petits marcadors i aquests dials representaven informació que entrava de la casa i es processava a temps real i t’explicava què passa. Un exemple senzill és un conjunt de pressió i temperatura baromètrica que podem veure on estem veient el que passa en temps real. Però imagino que fins i tot quan RAND Corporation va unir aquesta petita maqueta, en realitat ja estaven pensant en processar dades i realitzar analítiques, ja que entra en format stream. No estic del tot segur perquè posen un volant a l’ordinador, però és molt maco.

Des de la invenció de la impressora, hem tingut la possibilitat de capturar dades i realitzar anàlisis per lots. Com he dit amb el gran canvi ara mateix i ho hem vist dels gustos dels reproductors d’escala web que tots coneixem, totes són marques domèstiques com Twitter, Facebook i LinkedIn, aquest comportament interactiu que tenim amb aquells socials Les plataformes no només necessiten capturar, emmagatzemar i processar en mode per lots, sinó que realment capturen i condueixen les analítiques al llarg dels fluxos de dades que provenen. Quan tweet alguna cosa, no només han de capturar, emmagatzemar i fer alguna cosa més tard, sinó que també han de ser capaços de tornar a posar-lo immediatament al meu flux i compartir-lo amb altres persones que em segueixen. Aquest és un model de processament per lots.

Per què baixaríem per aquesta ruta? Per què les organitzacions invertirien temps, esforç i diners fins i tot per plantejar-se el repte d’esforçar-se pel camí de l’analítica de fluxos? Les organitzacions tenen aquest desig massiu d’obtenir un rendiment sobre els seus competidors en les indústries on es troben i que es pot implementar ràpidament un guany de rendiment mitjançant analítiques de flux simple i pot començar a fer un seguiment senzill de dades en temps real que ja estem familiaritzat amb. Tinc una petita captura de pantalla allà de Google Analytics. Aquesta és probablement una de les primeres vegades que realment hem obtingut les analítiques pràctiques per al consumidor. De manera que mentre la gent estava visitant el vostre lloc web i obteniu els rècords, amb una petita part de JavaScript a la part inferior de la pàgina web en HTML incrustat al vostre lloc web, aquests petits codis es creaven en temps real a Google i eren realitzen anàlisis sobre els fluxos de dades que provenen de totes les pàgines del vostre lloc web, de cada objecte del vostre lloc web en temps real i us ho remeten en aquesta petita pàgina web realment bonica en un tauler de gràfic en temps real, bonics histogrames i gràfic de línia que us mostra X nombre de persones que han accedit històricament a la vostra pàgina, però aquí hi ha quantes en aquest moment hi ha.

Com podeu veure en aquesta captura de pantalla, en diu 25 ara mateix. En aquest moment, hi ha vint-i-cinc persones en el moment de la captura de pantalla. Aquesta és la primera oportunitat real que hem jugat amb l’eina d’analítica de grau consumidor. Crec que molta gent ho ha aconseguit. Només van entendre el poder de saber què passava i com poden respondre-hi. Quan pensem en la magnitud d’aviònics, els avions que volen, només hi ha 18.700 vols nacionals al dia només als EUA. Vaig llegir un dia enrere fa uns sis o set anys que la quantitat de dades que estava produint aquells avions era d’entre 200 i 300 megabytes en l’antic model d’enginyeria. En els dissenys d'avions d'avui, aquests avions estan produint al voltant de 500 gigabytes de dades o aproximadament la meitat d'un terabyte de dades per vol.

Quan feu les matemàtiques amb molta rapidesa a la part superior del vostre cap, es produeixen 18.700 de vols nacionals cada 24 hores a l’espai aeri dels Estats Units, si tots els avions moderns produeixen aproximadament la meitat de terabyte, és a dir que hi ha de 43 a 44 petabytes de dades. està passant mentre els avions estan a l’aire. Està passant quan aterren i fan deixades de dades. És aleshores quan entren a la botiga i tenen un dipòsit de dades complet dels equips d’enginyeria per veure què hi ha als coixinets, les rodes i dins dels motors. Algunes d’aquestes dades s’han de processar en temps real perquè puguin prendre decisions sobre si hi ha un problema real mentre l’avió estava a l’aire o mentre es troba a terra. Simplement no ho podeu fer en mode batch. En altres indústries que veiem allà al voltant de les finances, la salut, la fabricació i l’enginyeria, també estan estudiant com poden obtenir aquesta nova visió del que passa en temps real, en lloc del que s’emmagatzema a les bases de dades. terme.

També hi ha aquest concepte de tractar les dades com el que jo anomeno un bé perible o una mercaderia perible, que moltes dades perden valor amb el pas del temps. És cada cop més el cas de les aplicacions de mobilitat i de les eines de xarxes socials, perquè el que diuen les persones i el que passa ara és el que vol respondre. Quan pensem en altres parts de la nostra vida amb logística i transport d’aliments al voltant, entenem el concepte de mercaderia perible en aquest sentit. Però penseu en les dades que travessa la vostra organització i en el valor que té. Si algú està fent negocis amb vosaltres ara mateix i podeu interactuar amb ells en temps real, no voldreu esperar ni una hora perquè es puguin capturar i introduir les dades en un sistema com Hadoop i, a continuació, premeu aquest botó. no podreu tractar-ho ara mateix i voleu fer-ho immediatament a demanda del client. Hi ha un terme que apareixerà molt ara en què la gent parla de tenir aquest flux de dades en temps real que et pot proporcionar personalització i que la personalització s'adapta al sistema que estàs fent servir a la teva experiència individual. Així, per exemple, quan toqueu una eina com l'eina de cerca de Google, per exemple, si faig una consulta i feu la mateixa consulta, sempre, no obtenim les mateixes dades exactes. Obtenim essencialment el que em refereixo com una experiència de celebritat. Estic tractat amb una puntualitat. Obtenc la meva pròpia versió personal del que passa en aquests sistemes a partir dels perfils i dades que han recopilat sobre mi i he pogut fer analítiques en temps real al flux.

Aquesta idea de que les dades siguin una mercaderia perible és una cosa real de moment i el valor de les dades que es redueixen amb el pas del temps és una cosa que hem de tractar actualment. No és cosa d'ahir. M’encanta aquesta imatge d’un ós que agafa un salmó saltant del riu perquè realment pinta exactament el que veig en streaming d’analítiques. És un riu massiu de dades que ens arriba, una màquina de foc, si voleu, i l'ós està assegut al mig de la cala. Realitzarà anàlisis en temps real sobre el que passa al seu voltant, de manera que pot enginyar la seva capacitat de capturar aquest peix a l’aire. No és com simplement caure al rierol i agafar-ne un. Aquesta cosa està saltant a l’aire i ha d’estar al lloc adequat en el moment adequat per agafar aquest peix. Altrament, no esmorza ni esmorza.

Una organització vol fer el mateix amb les seves dades. Volen extreure valor del que ara són volums massius de dades en moviment. Volen realitzar anàlisis sobre aquestes dades i dades d’alta velocitat, de manera que no és només la quantitat de dades que ens arriba, sinó la velocitat a la qual provenen. En seguretat, per exemple, es tracta de tots els vostres routers, commutadors, servidors, tallafocs i tots els esdeveniments que provenen d’aquells i desenes de milers, si no centenars de milers de dispositius, en alguns casos que són dades peribles. Quan hi pensem a Internet of Things i Internet industrial, parlem de milions, si no de milions de sensors, i a mesura que s’acosten les dades que realitzen analítiques, ara estem buscant processar esdeveniments complexos. a ordres de magnitud i velocitat que mai no havíem vist abans i que hem d’afrontar amb això avui. Hem d’anar construint eines i sistemes al respecte. És un autèntic repte per a les organitzacions perquè, per una banda, tenim les grans marques que fan de bricolatge, ho cuinen tu mateix, quan tenen la capacitat de fer-ho i les habilitats i l'enginyeria. Però per a l'organització mitjana, no és el cas. No tenen els coneixements. No tenen capacitat ni temps ni diners per invertir en esbrinar-ho. Tots apunten cap a aquest concepte de presa de decisions en temps real.

Feu servir els casos que he trobat i tinguin un ampli ventall de tots els sectors que podeu imaginar, la gent està asseguda i presta atenció i dient, com podem aplicar algunes analítiques a les nostres dades de flux? Parlem de serveis en línia a escala web. Hi ha les plataformes tradicionals de xarxes socials i el correu electrònic i la venda al detall en línia. Aplicacions per exemple. Tots intenten oferir-nos aquesta experiència en celebritat en temps real. Però quan aprofundim en més dels serveis de piles tecnològiques, serveis telefònics, veu i vídeo, veig gent caminant fent FaceTime als telèfons. Simplement explota. Em sorprèn la ment que la gent té el telèfon davant i que parla amb un vídeo de vídeo d’un amic en comptes de mantenir-lo a l’orella. Però saben que poden fer-ho i es van adaptar i els va agradar aquesta experiència. El desenvolupament d’aquestes aplicacions i de les plataformes que s’estan lliurant han d’efectuar analítiques en temps real sobre aquest trànsit i sobre els perfils del trànsit perquè puguin fer coses senzilles com l’encaminament d’aquest vídeo perfectament perquè la qualitat de la veu a la el vídeo que obté és adequat per obtenir una bona experiència. No es pot processar aquest tipus de dades. No faria que el flux de vídeo en temps real fos un servei funcional.

Hi ha un repte de govern en les transaccions financeres. No està bé arribar al final del dia i esbrinar que heu infringit la llei que traslladava dades privades arreu. A Austràlia, tenim un repte molt interessant on traslladar les dades relacionades amb la privadesa fora del mar és un no-no. No podeu agafar el meu PID, les meves dades d’identificació personals privades fora del mar. Hi ha lleis a Austràlia que impedeixen que això passi. Els proveïdors de serveis financers, en especial, els serveis governamentals i les agències, han de fer analítiques en temps real sobre els seus fluxos de dades i instruccions amb mi per assegurar-me que allò que em proporcionen no surti de les costes. Totes les coses han de romandre localment. Ho han de fer en temps real. No poden violar la llei i demanar perdó més endavant. Detecció de fraus: és bastant evident que es parla de les transaccions amb targeta de crèdit. Però a mesura que els tipus de transaccions que realitzem en serveis financers canvien molt, molt ràpidament, hi ha diverses coses que PayPal fa en primer lloc per detectar el frau en temps real en què els diners no es mouen d’una cosa a l’altra, però és una transacció financera entre sistemes. Les plataformes d’oferta Ebay, que detecten fraus, s’han de fer en temps real en una oficina de streaming.

Hi ha una tendència ara cap a l'extracció i la transformació de l'activitat de càrrega als fluxos, de manera que no volem capturar res del que passa al flux. No ho podem fer realment. La gent ha après que les dades els agrada trencar-se ràpidament si ho captem tot. El truc ara és realitzar analítiques en aquests fluxos i fer ETL al mateix i només capturar el que necessiteu, potencialment metadades, i després conduir analítiques predictius on realment puguem dir el que passarà una mica més enllà de les vies que tenim Acabem de veure al flux basat en les analítiques que realitzem.

Els proveïdors d’energia i serveis públics experimenten aquest desig massiu dels consumidors de tenir preus de demanda. Podria decidir que vull comprar energia verda en un moment determinat del dia, perquè només sóc a casa sola i no estic utilitzant gaires dispositius. Però, si tinc un sopar, potser voldria tenir tots els meus dispositius en marxa i no vull que estigui comprant energia barata i esperant que es lliuri, però estic disposat a pagar més cost per obtenir aquest poder. Aquest preu de la demanda, especialment en serveis i espais energètics, ja ha passat. Uber, per exemple, és un exemple clàssic de coses que podeu fer cada dia i tot es basa en la fixació de preus. Hi ha alguns exemples clàssics de persones a Austràlia que obtenen tarifes de 10.000 dòlars a causa de la demanda massiva de la nit de Cap d'Any. Estic segur que han tractat aquest problema, però les analítiques de flux es realitzen en temps real mentre que al cotxe us expliquen quant he de pagar.

Internet of Things i fluxos de sensors: només hem rascat la superfície i realment hem tingut lloc la conversa bàsica al respecte, però veurem un canvi interessant de com tracta aquesta tecnologia perquè quan parles no gairebé milers o desenes de milers, però centenars de milers i milers de milions de dispositius que us transmeten, gairebé cap de les piles tecnològiques que tenim ara estan dissenyades per fer-ho.

Hi ha alguns temes realment candents al voltant del lloc, com ara la seguretat i el risc cibernètic. Per a nosaltres són uns reptes molt reals. Hi ha una eina molt neta anomenada Nord a la web on podeu seure i veure en una pàgina web diversos ciberataques que passen en temps real. Quan ho mireu, penseu "oh, és una bonica pàgina web bonica", però al cap de cinc minuts allà, us adoneu del volum de dades que el sistema fa analítiques a tots els diferents fluxos de tots els diferents dispositius de tot el món. que s’estan alimentant. Comença a entomar la sensació de com estan realitzant això al límit d’aquest registre fonamentalment i proporcionant-vos aquella petita pantalla senzilla que us indica què hi ha, o alguna altra cosa, que l’ataca en temps real i quins tipus d’atacs. Però és una forma senzilla i senzilla de fer un bon sabor de tot allò que les analítiques de flux poden fer per a tu en temps real només observant aquesta pàgina i tenint en compte només el volum i el repte d’agafar els fluxos, processar les consultes d’analítica a. ells i representant això en temps real.

Crec que la conversa que tinc per a la resta de la sessió tractarà tot aquest tipus de coses amb una visió interessant, des del meu punt de vista, i aquest és el repte de la bricolatge, coure-ho a tu mateix, s’adapta a alguns dels unicorns clàssics que són capaços de permetre's el luxe de construir aquest tipus de coses. Han aconseguit milers de milions de dòlars per construir aquests equips d'enginyeria i per construir els seus centres de dades. Però per al 99, 9% de les organitzacions que hi ha, que volen impulsar valor en el seu negoci d’analítica de flux, necessiten obtenir un servei fora de la plataforma. Ells necessiten comprar un producte fora de la caixa i generalment necessiten algun servei de consultoria i servei professional que els ajudi a implementar-lo i guanyin aquest valor a l’empresa i el tornin a vendre com a solució de treball.

Amb això, em lliuraré a tu, Rebecca, perquè crec que això és el que estem a punt de detallar ara.

Rebecca Jozwiak: Excel·lent. Moltes gràcies, Dez. És una presentació magnífica.

Ara, passaré la pilota a Robin. Emporta-t'ho.

Robin Bloor: D'acord. Com que Dez ha entrat a la gran quantitat de processos de fluxos, no semblava tenir cap sentit cobrir-lo de nou. Així doncs, només tindré una visió completament estratègica. Es mira gairebé des d’un nivell molt baix sobre el que està passant i se’l posiciona perquè crec que pot ajudar la gent, especialment nosaltres persones que no estan encampades en processar fluxos abans a molta profunditat.

El processament dels fluxos ha estat durant molt de temps. Solíem anomenar-lo CEP. Hi havia sistemes en temps real abans d’això. Els sistemes originals de control de processos realment processaven fluxos d'informació, per descomptat, res no anava fins al que és actual. Aquest gràfic que veieu a la diapositiva aquí; està assenyalant moltes coses, però està assenyalant per sobre i per sobre de qualsevol altra cosa: el fet que hi hagi una gamma de latències que apareixen de diferents colors aquí mateix. El que va passar realment des de la invenció de la informàtica o informàtica comercial que va arribar al voltant del 1960 és que tot acaba de fer més ràpid i més ràpid. Solíem poder dependre de la manera en què sortís realment si voleu en les ones, perquè és el que sembla. Això depèn en realitat. Com que tot estava impulsat per la llei de Moore i la llei de Moore ens donaria un factor d’unes deu vegades de velocitat en un període d’uns sis anys. Aleshores, una vegada que vam arribar a prop del 2013, tot es va trencar i de sobte vam començar a accelerar a un ritme que mai havíem fet, que és estrany sense precedents. Estàvem obtenint un factor d’uns deu quant a l’augment de la velocitat i, per tant, la reducció de la latència aproximadament cada sis anys. En els sis anys posteriors al 2010, hem tingut un múltiple d'almenys mil. Tres ordres de magnitud en lloc d’un.

Això és el que ha passat i és per això que la indústria d'una o altra manera sembla que s'està movent a velocitats fantàstiques, perquè sí. Passant només el significat d’aquest gràfic en concret, els temps de resposta són, per cert, en escala algorítmica cap a l’eix vertical. El temps real és la velocitat de l’ordinador, més ràpid que l’ésser humà. Els temps interactius són ataronjats. És quan interaccioneu amb l'ordinador que és on realment voleu una desena o aproximadament un segon de latència. A sobre, hi ha transaccions on realment pensem en el que esteu fent a l'ordinador, però si això surt en uns quinze segons, es converteix en intolerable. Les persones simplement no esperan l'ordinador. Tot es va fer per lots. Un munt de coses que es van fer per lots s’estan venint directament a l’espai transaccional, directament a l’espai interactiu o fins i tot a l’espai en temps real. Si bé anteriorment, podríem fer alguna cosa ondulada amb quantitats molt petites de dades, ara podem fer-hi quantitats molt grans de dades amb un entorn molt reduït.

Així, bàsicament, tot això diu que és realment la transacció i els temps interactius de resposta humana. Una gran quantitat d’allò que s’està fent amb els fluxos ara mateix és informar els éssers humans sobre les coses. Alguna cosa va més ràpid que això i està informant bé coses perquè sigui el temps real. Llavors agafem una llicència per deixar caure com una pedra, fent que les analítiques instantànies siguin factibles i, per cert, força assequibles. No només la velocitat ha baixat i la part superior també s'ha esfondrat. Probablement l’impacte més gran de tots aquests entre totes les diverses aplicacions, podeu fer totes aquestes analítiques predictius. Et diré el perquè d’aquí a un minut.

Es tracta només de la ferreteria. Teniu programari paral·lel. Parlem del 2004. Arquitectura escalada, xips multicor, augment de memòria, CPU configurable. Els SSD ara van molt més ràpidament que el disc girant. Prou adéu al disc de rotació d’ona. Els SSD també es troben en diversos nuclis, de manera que tornen a ser més ràpids. Aviat apareixerà, hem aconseguit el memristor d'HP. Tenim el 3D XPoint d’Intel i Micron. La promesa d'aquests és que tot ho farà més ràpid i més ràpid. Quan estàs pensant en dues noves tecnologies de memòria, ambdues que faran que la peça fonamental sigui completa, la placa de circuit individual avança més ràpidament, ni tan sols hem vist el final.

La tecnologia Streams, que és el següent missatge realment, és aquí per quedar-se. Haurà d’haver-hi una nova arquitectura. Vull dir que Dez ha mencionat això en diversos punts de la seva presentació. Durant dècades, hem vist l'arquitectura com una combinació de munts de dades i canonades de dades. Tendíem a processar els munts i vam tendir a canalitzar les dades entre els munts. Ara ens movem fonamentalment cap al que anomenem arquitectura de dades Lambda que combina el processament de fluxos de dades amb munts de dades. Quan realment processeu un flux d’esdeveniments en contra de dades històriques com a flux de dades o un munt de dades, això vull dir per arquitectura Lambda. Això és a la seva infància. És només una part de la imatge. Si considereu una cosa tan complexa com Internet de tot el que Dez ha mencionat, realment us adonareu que hi ha tot tipus de problemes d’ubicació de dades: decisions sobre què heu de processar al flux.

El que realment dic aquí és que quan estàvem processant per lots, en realitat estàvem processant fluxos. No ho podríem fer un a la vegada. Només esperem fins que hi hagi una gran quantitat de coses i les processem tot alhora. Ens movem cap a una situació en què realment podem processar coses al flux. Si podem processar coses al flux, aleshores, els munts de dades que guardem seran les dades estàtiques a les quals hem de fer referència per processar les dades del flux.

Això ens porta a aquesta cosa particular. Ja ho he dit anteriorment en alguna presentació amb l'analogia biològica. La manera en què m’agradaria que pensés és en el moment en què som éssers humans. Disposem de tres xarxes diferents de processament predictiu en temps real. S’anomenen somàtics, autònoms i entèrics. L’entèric és l’estómac. El sistema nerviós autonòmic té cura de la lluita i dels vols. En realitat té cura de reaccions ràpides a l’entorn. El somàtic que té cura del moviment del cos. Són sistemes en temps real. El més interessant, o crec que és interessant, és molt més predictiu del que haureu imaginat. És com si realment estiguéssiu mirant una pantalla a uns 18 centímetres de la vostra cara. Tot el que podeu veure amb claredat, tot el que el vostre cos és capaç de veure amb claredat és, en realitat, un rectangle de 8 × 10. Tot el que fora d'això està borrós pel que fa al seu cos, però la teva ment està omplint els buits i no fa que es difumini. No es veu cap difuminació en absolut. Ho veus clar. En realitat, la vostra ment realitza un mètode predictiu del flux de dades perquè pugueu veure aquesta claredat. És una cosa curiosa, però realment es pot observar el funcionament del sistema nerviós i la manera com aconseguim moure’ns i comportar-nos raonablement –almenys alguns de nosaltres–, raonablement sanitaris i no assolir les coses tot el temps.

Tot això ho fa mitjançant una sèrie d’analítica neuronal a escala aquí. El que passarà és que les organitzacions tindran el mateix tipus i construiran el mateix tipus de coses i serà el processament de fluxos inclosos els fluxos interns de l’organització, les coses que estan passant dins. sí, les coses que succeeixen fora d'ella, les respostes instantànies que realment s'han de fer alimenten, naturalment, l'ésser humà per prendre decisions, per aconseguir que tot això passi. És allà on anem, pel que veig.

Una de les conseqüències d’això és que el nivell de l’aplicació de streaming va bé. Hi haurà molt més del que veiem ara. Ara mateix, estem recollint el fruit amb poca capacitat de fer les coses òbvies.

De totes maneres aquí és la conclusió. La transmissió d’analítiques és una vegada un nínxol però s’està convertint en mainstream i aviat s’adoptarà generalment.

Amb això, el passaré de nou a Rebecca.

Rebecca Jozwiak: Moltes gràcies, Robin. Una gran presentació com sempre.

Anand, ja estàs al costat. El pis és teu.

Anand Venugopal: Fantàstic. Gràcies.

Em dic Anand Venugopal i sóc el cap de producte de StreamAnalytix. És un producte ofert per Impetus Technologies, a Los Gatos, Califòrnia.

Impetus ha tingut una gran història en ser un proveïdor de solucions de dades per a grans empreses. Així, en realitat hem realitzat diverses implementacions d’analítica de streaming com a empresa de serveis i hem après moltes lliçons. També vam prendre un canvi cap a convertir-nos en una empresa de productes i empresa basada en solucions durant els últims dos anys i l’analítica de flux encapçala la transformació d’Imppetus en una empresa principalment orientada al producte. Hi ha alguns actius crítics, molt, molt clars que Impetus ha suprimit gràcies a la nostra exposició a empreses i StreamAnalytix n’és un.

Portem 20 anys en el negoci i hi ha una gran combinació de productes i serveis que ens converteixen en un avantatge enorme. I StreamAnalytix va néixer de totes les lliçons apreses de les nostres primeres cinc o sis implementacions de streaming.

Tocaré algunes coses, però els analistes, Dez i Robin, han fet un treball fantàstic a l’hora de cobrir l’espai en general, així que vaig a saltar un munt de contingut que s’hi sobreposa. Probablement aniré ràpid. Veiem, a més de casos de transmissió real, l'ús d'una gran acceleració per lots en què hi ha processos de lots molt importants en empreses. Com veieu, tot aquest cicle de percepció d’un esdeveniment, anàlisi i actuació sobre ell pot trigar setmanes a les grans empreses i tots estan intentant reduir-lo a minuts i a vegades segons i mil·lisegons. De manera que qualsevol cosa més ràpida que tots aquests processos per lots són candidats a l’adquisició d’empreses i està molt bé que el valor de les dades disminueix dramàticament amb la seva edat, de manera que més valor hi ha a la porció inicial en els segons que acaba de passar. L'ideal seria que, en cas que poguessis predir el que passaria, aquest és el valor més elevat. Tot i això depèn de la precisió. El següent valor més elevat és quan es troba allà mateix quan hi passa, podeu analitzar-lo i respondre. Per descomptat, el valor redueix dràsticament després d’això, la principal BI restrictiva en la qual estem.

És interessant. És possible que espereu alguna resposta de manera dramàtica per què expliquen analitzes per raó. Amb molts casos, el que estem veient és que ara és possible i com que tothom sap que el lot és antic, el lot és avorrit i el lot no és genial. Hi ha prou educació que tothom ha tingut ara sobre el fet que hi ha streaming possible i tothom té Hadoop ara. Ara les distribucions Hadoop tenen integrada una tecnologia de streaming, ja sigui streaming de Storm o Spark i, per descomptat, cues de missatges, com Kafka, etc.

Les empreses que veiem estan saltant-hi i comencen a experimentar amb aquests casos i estem veient dues grans categories. Un té alguna cosa a veure amb l’analítica i l’experiència del client i el segon amb la intel·ligència operativa. Una mica més endavant aprofundiré en alguns dels detalls. Tot l’angle d’atenció al client i l’experiència al client i nosaltres, a Impetus StreamAnalytix, ho hem fet de moltes maneres diferents es tracta realment, captant realment l’atenció multicanal del consumidor en temps real i els oferim experiències molt sensibles al context. que avui no són habituals. Si estàs navegant al web, al lloc web del Bank of America, i estàs investigant alguns productes i només has de trucar al centre de trucades. Dirien: "Hola Joe, sé que estàveu investigant alguns productes bancaris, voldríeu que us omplís?" No ho espereu avui, però és el tipus d'experiència realment possible amb l'analítica de streaming. En molts casos, fa una gran diferència, sobretot si el client ha començat a investigar maneres de sortir del seu contracte amb tu, consultant clàusules de rescripció anticipada o termes i condicions de rescripció anticipada al vostre lloc web i, a continuació, pot iniciar la sessió i no pot fer-ho. Enfronteu-vos directament al respecte, però només feu una oferta indirecta sobre algun tipus de primera promoció, ja que el sistema sap que aquesta persona busca la terminació anticipada i feu aquesta oferta en aquest moment, podríeu protegir bé aquell client que ofega i protegir aquest recurs. .

Aquest seria un exemple, a més de molts serveis al client són molt bons exemples. Estem implementant avui redueix els costos al centre de trucades i proporciona experiències del client dramàtiques. Dez va fer una gran tasca a l’hora de resumir alguns dels casos d’ús. Podeu mirar aquest gràfic durant un parell de minuts. La vaig classificar com a verticals, horitzontals i zones combinades, IoT, aplicació mòbil i centre de trucades. Tots són verticals i horitzontals. Depèn de com ho miris. En la línia de fons, veiem una gran quantitat d’usos horitzontals que són força habituals a les verticals de la indústria i hi ha casos d’ús específics verticals que inclouen serveis financers, assistència sanitària, telecomunicacions, fabricació, etc. Si realment et fas la pregunta o t’ho expliques. que, “oh, no sé quins casos d’ús hi ha. No estic segur de si hi ha cap valor empresarial en la transmissió d’analítica per a la meva empresa o per a la nostra empresa ”, penseu, penseu dues vegades. Parleu amb més gent perquè hi ha casos d’ús que a la vostra empresa són rellevants avui en dia. Obteniré el valor empresarial sobre com es deriva exactament el valor empresarial.

A la part inferior de la piràmide, teniu un manteniment predictiu, seguretat, protecció contra la picadura, etc. Aquest tipus de casos d’ús constitueixen la protecció d’ingressos i actius. Si Target va protegir el seu incompliment de seguretat ocorregut durant hores i setmanes, el CIO podria haver salvat la seva feina. Es podria estalviar desenes o centenars de milions de dòlars, etc. Les analítiques de transmissió en temps real ajuden realment a protegir aquests actius i a protegir les pèrdues. Allà és el valor afegit del negoci directe.

La següent categoria és cada vegada més rendible, reduint el vostre cost i obtenint més ingressos de l'operació actual. És l'eficiència de l'empresa actual. Aquests són tota la categoria de casos d’ús que anomenem intel·ligència operativa en temps real, on obteniu informació detallada sobre com es comporta la xarxa, com es comporten les operacions del vostre client, com es comporta el vostre procés empresarial i podeu modificar Tot això en temps real perquè obteniu comentaris, obtindreu alertes. Obteniu desviacions, diferències en temps real i podeu actuar ràpidament i separar el procés que no es farà.

També podreu estalviar molts diners en les actualitzacions de capital cares i en les coses que creieu que són necessàries, que potser no serien necessàries si optimitzeu el servei de xarxa. Ens assabentàvem d’un cas en què un important telco va diferir una actualització de 40 milions de dòlars a la seva infraestructura de xarxa perquè van trobar que tenien prou capacitat per gestionar el seu trànsit actual, que és optimitzar i fer millor l’encaminament intel·ligent del seu trànsit i coses així. Totes aquestes opcions només són possibles amb algunes analítiques i mecanismes d’acció en temps real que actuen sobre aquestes visions en temps real.

El següent nivell de valor afegit és la venda integral, la venda creuada, on hi ha oportunitats per obtenir més ingressos i beneficis de l'oferta actual. Aquest és un exemple clàssic que molts de nosaltres sabem que han viscut on, penses a la teva vida, en què estàs disposat a comprar un producte que avui no t’està oferint. En molts casos, això succeeix en realitat. Tens coses al cap que t’agrada comprar que saps que vols comprar, que tens una llista de tasques o alguna cosa, que la teva dona t’ha dit o si no tens una dona, però realment vols voler comprar i aneu a comprar a un lloc web o interactueu en una botiga minorista, l'aparador només no té el context, no té la intel·ligència per calcular el que pugui necessitar. Per tant, no aconsegueixen el seu negoci segur. Si es puguin desplegar analítiques de streaming per fer prediccions exactes i realment possibles en allò que més s’adapta a aquest context concret, aquest client en aquest moment en aquesta ubicació, hi ha moltes vendes i vendes creuades i això torna a ser streaming d’analítiques: és capaç de prendre una decisió de propensió al que és probable que aquest client pugui comprar o respondre en aquell moment de veritat quan hi hagi una oportunitat. Per això m’encanta aquella imatge que Dez va mostrar amb l’ós a punt de menjar aquell peix. És prou.

També pensem que hi ha una gran categoria per haver-hi canvis dramàtics i transformatius en una empresa d’oferir productes i serveis completament nous basats simplement en l’observació del comportament del client, tot basat en l’observació del comportament d’una altra empresa. Si, per exemple, un telco o una empresa de cable observen realment els patrons d’ús dels clients en quin segment del mercat està veient, quin programa en quin moment, etc., acaben creant productes i serveis gairebé sol·licitats. perquè d’alguna manera. De manera que tot el concepte de comportament de diverses pantalles ara mateix, en el que ara estem donant per descomptat, podem veure contingut de TV o per cable a les nostres aplicacions mòbils. Alguns d’aquests exemples provenen d’aquests nous productes i serveis que se’ns ofereixen.

Intentaré: “Quines són les consideracions d’arquitectura de l’analítica de transmissió?” És, finalment, el que intentem fer. Aquesta és l'arquitectura de Lambda, on es combinen les dades històriques i les dades en temps real i es veuen al mateix temps. Això és el que permet Sigma. Tots tenim actualment l’arquitectura i la imatge empresarial. Ens estem orientant a una mena de pila de BI i ús de pila i l’arquitectura Lambda afegida. Com la capa de velocitat o la necessitat i la Lambda es tracta de fusionar aquestes dues visions i veure-ho de manera combinada, d’una manera rica que combina les dues visions.

Hi ha un altre paradigma anomenat arquitectura Kappa que es proposa quan la conjectura és que la capa de velocitat és l’únic mecanisme d’entrada que persistirà a llarg termini. Tot passarà per aquesta capa de velocitat. Ni tan sols hi haurà un mecanisme ETL fora de línia. Tota la ETL passarà. Neteja, neteja de dades, ETL de qualitat: tot això passarà pel fil, perquè tingueu en compte que totes les dades van néixer en temps real. En algun moment, era temps real. Ens hem acostumat a posar-ho en llacs, rius i oceans, i després ho hem fet en anàlisis estàtiques que hem oblidat que les dades van néixer en algun moment real. Totes les dades naixen realment com un esdeveniment en temps real que va passar en el moment i la majoria de les dades actuals sobre el llac acaben de ser posades a la base de dades per a una anàlisi posterior i ara tenim l’avantatge en l’arquitectura Lambda i Kappa de fet. veient-la, analitzant-la, pre-processant-la i reaccionant-la a mesura que arriba. Això és el que permet aquestes tecnologies. Quan ho veieu com una imatge general, sembla una cosa així on hi ha Hadoop a dins, hi ha MPPs i magatzems de dades que ja teniu.

Vam plantejar-ho perquè és important no només parlar de noves tecnologies en una illa. S’han d’integrar. Han de tenir sentit en el context empresarial actual i, com a proveïdors de solucions que donen servei a les empreses, som molt sensibles a això. Ajudem a les empreses a integrar el tot. Hi ha fonts de dades a la part esquerra que s'instal·len tant a les capes de Hadoop com a magatzem de dades, com a la capa en temps real que hi ha a la part superior i cadascuna d'aquestes entitats són ordinadors stock com podeu veure i la capa de consum de dades es troba a la dreta. costat. Hi ha un esforç constant per moure la majoria de la conformitat, la governança, la seguretat, la gestió del cicle de vida, etc., que hi ha disponibles avui en dia, que s’han acumulat en aquesta nova tecnologia.

Una de les coses que intenta fer les analítiques de flux, si ens fixem en el paisatge actual, hi ha moltes coses en el panorama de la tecnologia de streaming i, des del punt de vista del client empresarial, hi ha moltes coses a entendre. Hi ha molt per estar al dia. Hi ha mecanismes de recollida de dades a la part esquerra: NiFi, Logstash, Flume, Sqoop. Evidentment, he plantejat una declaració d'exclusió dient que no és exhaustiu. Entra a les cues de missatges i entra als motors de streaming de codi obert: Storm, Spark Streaming, Samza, Flink, Apex, Heron. La gespa probablement no és encara de codi obert. No estic segur si ho és, de Twitter. A continuació, els motors de streaming entren o admeten un component d’aplicació d’analítica de configuració com ara processament complex d’esdeveniments, aprenentatge automàtic, analítica predictiu, mòdul d’alerta, streaming ETL, filtres d’operacions estadístiques d’enriquiment. Aquests són tot el que anomenem ara operadors. El conjunt d’aquells operadors que s’uneixen junts possiblement també podrien arribar a una conclusió personalitzada en cas de ser necessari una aplicació de streaming que s’executa en un motor de streaming.

Com a part d'aquesta cadena de components, també heu d'emmagatzemar i indexar les dades a la base de dades preferida, al vostre índex favorit. També podeu haver de distribuir la memòria cau i una altra vegada, que condueix a la capa de visualització de dades de la part dreta de la part superior a productes comercials o productes de codi obert, però en última instància, necessitareu algun tipus de producte per visualitzar-los en temps real. A més, a vegades cal figurar altres aplicacions. Tots hem vist que els valors derivats només de l’acció que realitzeu la perspicàcia, que l’acció serà un disparador d’una pila analítica a una altra pila d’aplicacions que potser ha canviat això en el costat de l’IVR o que desencadena un centre de trucades. trucada sortint o alguna cosa així. Cal que tingueu integrats aquests sistemes i algun mecanisme per al vostre clúster de streaming per activar altres aplicacions d'enviament de dades aigües avall.

Aquesta és la pila general d’esquerra a dreta. Aleshores, teniu les capes de servei, la supervisió mitjana, la capa de servei general de seguretat, etc. Quant als productes que hi ha a l’espai empresarial que veuen els clients com a distribucions Hadoop, que tots tenen streaming com he dit, i que hi ha comercials o únics -Veure solucions òbviament en els nostres competidors. També hi ha molts més en el paisatge que potser no hem esmentat aquí.

El que veieu allà és que l'usuari de l'empresa està veient. Com veieu un paisatge tecnològic complex i en ràpida evolució per al processament de fluxos. Hem de simplificar l’elecció i la seva experiència d’usuari. El que pensem que les empreses necessiten realment és l’abstracció funcional de tot això en una interfície senzilla d’ús únic, que agrupa totes aquestes tecnologies que fa que sigui senzill d’utilitzar i que no exposi totes les parts mòbils. i problemes de degradació i problemes de rendiment i manteniment del cicle de vida a l'empresa.

L'abstracció de funcionalitats és única. La segona part és l'abstracció del motor de transmissió. Els motors de transmissió i els dominis de codi obert apareixen una vegada cada tres, quatre o sis mesos. Feia temps que era Tempesta. Va aparèixer Samza i ara és Spark Streaming. Flink està alçant el cap i comença a cridar l'atenció. Fins i tot el full de ruta de Spark Streaming, estan fent camí per utilitzar potencialment un motor diferent per al processament d’esdeveniments pur, ja que també s’adonen que Spark va ser dissenyat per a lots i que s’estan fent un camí en la seva visió d’arquitectura i el seu full de ruta per tenir un potencial diferent. motor per al processament de flux a més del patró de microbatch actual a Spark Streaming.

És una realitat que cal afrontar que hi haurà molta evolució. En realitat necessiteu protegir-vos d’aquest flux de tecnologia. Perquè de manera predeterminada, haureu d’escollir-ne una i després convivir-hi, cosa que no és òptima. Si ho estudieu d’una altra manera, esteu lluitant entre: “d’acord, he de comprar una plataforma propietària on no hi ha cap bloqueig, no hi ha cap avantatge de codi obert, pot ser un cost molt elevat i limitat. flexibilitat enfront de totes aquestes piles de codi obert en què has de fer-ho tu mateix ”. De nou, com he dit, té molts costos i retard a l’hora de sortir al mercat. StreamAnalytix és un exemple d'una gran plataforma que uneix la classe empresarial, la confiança, el venedor únic, el servei professional suportat, tot el que realment necessita com a empresa i el poder de flexibilitat de l'ecosistema de codi obert. on s’uneix una única plataforma: Ingest, CEP, analítica, visualització i tot això.

També fa una cosa molt, molt singular, que reuneix molts motors de tecnologia diferents en una experiència única. Realment pensem que el futur consisteix en poder utilitzar múltiples motors de streaming perquè diferents casos d’ús realment exigeixen arquitectures de streaming diferents. Com va dir Robin, hi ha tot un espectre de latències. Si realment es parla de nivell de latència de mil·lisegunds, de desenes o fins i tot de centenars de mil·lisegons, realment necessita Storm en aquest moment fins que hi hagi un altre producte igualment madur per tenir menys temps o poca durada i latències de potser en un parell de segons, tres, quatre, cinc segons, aquest interval, i després podeu fer servir el Spark Streaming. Potencialment, hi ha altres motors que podrien fer els dos. En el fons, en una gran empresa, hi haurà casos d'ús de tot tipus. Realment voleu que l’accés i la generalitat tinguin diversos motors amb una experiència d’usuari i això és el que intentem crear a StreamAnalytix.

Només cal una ràpida visualització de l'arquitectura. Tornarem a replantejar-ho una mica, però essencialment, hi ha diverses fonts de dades a la part esquerra: Kafka, RabbitMQ, Kinesis, ActiveMQ, totes aquestes fonts de dades i cues de missatges que entren a la plataforma de processament de flux. s’aconsegueix muntar una aplicació, on es pot arrossegar i deixar anar d’operadors com els ETL, tot el que hem parlat. A sota, hi ha diversos motors. En aquest moment, tenim Streaming Storm i Spark com a plataforma de transmissió única i primera de les indústries que compta amb diversos motors de suport. És una flexibilitat molt única que oferim, a més de tota l’altra flexibilitat de tenir taulers de comandament en temps real. Motor CET integrat. Tenim una integració perfecta amb els índexs Hadoop i NoSQL, Solr i Apache. Podeu accedir a la vostra base de dades preferida, no importa què sigui i crear aplicacions realment ràpidament i arribar al mercat realment ràpidament i quedar-vos a prova futura. Aquest és el nostre mantra complet a StreamAnalytix.

Amb això, crec que conclouré els meus comentaris. No dubteu a venir-hi per més preguntes. Voldria mantenir la paraula oberta per a les preguntes de preguntes i el debat.

Rebecca, a sobre.

Rebecca Jozwiak: Genial, d'acord. Moltes gràcies. Dez i Robin, teniu algunes preguntes abans de transmetre-les a les auditories Q&A?

Robin Bloor: Tinc una pregunta. Tornaré a posar els auriculars perquè em pugueu sentir. Una de les coses interessants, si em poguessis dir amb amabilitat, gran part del que he estat veient a l'espai de codi obert és el que diria immadur. En cert sentit, sí que podeu fer diverses coses. Però sembla que estiguem buscant el programari en la seva primera o segona versió en realitat i només em preguntava amb la vostra experiència com a organització, quant veus que la immaduresa de l’entorn Hadoop és problemàtica o és alguna cosa que no faci? no creeu massa problemes?

Anand Venugopal: És una realitat, Robin. Tens tota la raó. La immaduresa no es troba necessàriament en l'àmbit de l'estabilitat funcional i de les coses, però potser també hi ha alguns casos. Però la immaduresa està més en disposició a l’ús. Els productes de codi obert a mesura que surten i, fins i tot en oferir-los la distribució Hadoop, són molts productes capaços diferents, components junts entre si. No funcionen junts de forma perfecta i no estan dissenyats per a una experiència d'usuari sense problemes que obtindrem com Bank of America, Verizon o AT&T, per desplegar una aplicació d'analítica de streaming en poques setmanes. Això no està pensat per a això. Per això entrem. Ens ho ajuntem i fem que sigui fàcil d'entendre, de desplegar, etc.

Crec que, en bona mesura, hi ha una maduresa funcional. Actualment, moltes empreses grans utilitzen per exemple la tempesta. Actualment moltes grans empreses juguen amb Spark Streaming. Cadascun d’aquests motors té les seves limitacions en el que poden fer, és per això que és important saber què es pot i què no es pot fer amb cada motor i no té cap sentit que es trenqui el cap contra la paret i es digui: “Mira I Va triar Spark Streaming i no funciona per a mi en aquesta indústria. ”No funcionarà. Hi haurà casos d'ús en què Spark Streaming serà la millor opció i hi haurà casos d'ús en què Spark Streaming pot no funcionar del tot. Per això, realment necessiteu diverses opcions.

Robin Bloor: Bé, heu de tenir equips experts a bord per a la major part d’això. Vull dir que ni tan sols sé per on començar. Una coacció sensata d’individus qualificats. M’interessa la forma en què t’engresques i com es produeix. És perquè una empresa en particular es troba després d’una aplicació específica o estàs veient un tipus d’allò que jo anomenaria adopció estratègica on volen que tota una plataforma faci moltes coses.

Anand Venugopal: estem veient exemples de tots dos, Robin. Algunes de les deu marques principals que tothom sap que ho són són de forma molt estratègica. Saben que hauran de tenir diversos casos d’ús, per la qual cosa estan avaluant plataformes que s’adapten a aquesta necessitat, que és una varietat de casos d’ús diferents de manera multi-inquilina per ser desplegats en una empresa. Hi ha històries de casos d’un sol ús que també comencen. Hi ha un cas d’ús específic del tipus de monitoratge de l’activitat empresarial en una empresa d’hipoteca que treballem en el qual no podríeu imaginar com a cas d’ús primer, però és la solució comercial o el cas d’ús amb què van arribar i després vam connectar els punts a la transmissió. . Vam dir: "Sabeu què? Aquest és un gran cas per transmetre analítiques i així és com podem implementar-ho. ”Així va començar. Aleshores, en aquest procés, es formen i diuen: “Oh, wow, si podem fer-ho i si es tracta d’una plataforma genèrica, aleshores podem separar l’aplicació, posar-les a la plataforma i crear moltes aplicacions diferents sobre això. plataforma ”.

Robin Bloor: Dez, tens alguna pregunta?

Anand Venugopal: Dez està probablement en silenci.

Dez Blanchfield: Disculpes, muda. Jo només vaig tenir una bona conversa. Simplement seguint l’observació original de Robin, ets absolutament correcte. Crec que el repte ara és que les empreses tinguin un ecosistema i un entorn cultural i de comportament on el programari lliure i de codi obert sigui una cosa que els és coneguda i que puguin utilitzar eines com Firefox com a navegador i que hagi tingut un lloc decent. tota la vida fins que es converteix en estable i segur. Però algunes d'aquestes plataformes molt grans que utilitzen són plataformes propietàries de qualitat empresarial. Per tant, l’adopció del que considero plataformes de codi obert no sempre és una cosa que els sigui fàcil transmetre’s culturalment o emocionalment. Això ho he vist mitjançant l’adopció de petits programes que eren projectes locals per jugar amb big data i analítica com a concepte fonamental. Crec que un dels reptes clau, estic segur que els heu vist ara a les organitzacions, és el seu desig d’obtenir el resultat, però al mateix temps tenir el peu enganxat a l’antiga llauna on només podrien comprar-ho "Inserir una marca gran" Oracle, IBM i Microsoft. Aquestes noves i conegudes marques estan arribant a través de plataformes Hadoop i encara més. Estan arribant marques més emocionants a través de les quals compta amb tecnologia punta com el flux.

Quins tipus de converses heu obtingut o aconseguit? Sé que tenim una assistència massiva aquest matí i una cosa que estic segura és en la ment de tothom és "Com puc tallar tota aquesta capa difícil des del tauler fins al nivell de gestió, oh és massa obert i un límit massa sagnant? "Com són les converses que teniu amb els clients i com podeu reduir-vos fins al punt en què pogueu alleujar aquest tipus de pors per considerar l'adopció de StreamAnalytix?

Anand Venugopal: En realitat ens resulta molt fàcil vendre la nostra proposta de valor perquè els clients s’orienten de manera natural cap al codi obert com a opció preferida. No es resisteixen fàcilment i diuen: “Està bé, ara aniré a codi obert”. En realitat passen per una avaluació molt compromesa d’un producte important, diguem que és una IBM o un producte típic, perquè tenen aquestes relacions de venedors. No ens tractarien ni el motor de codi obert contra aquest producte. Passaran de sis a vuit a dotze setmanes d'avaluació. Es convenceran de si mateix que hi ha un grau de rendiment i estabilitat que jo vull, i aleshores es pensen dient: "Uau, ja ho sabeu, realment puc fer això".

Avui, per exemple, tenim un telco de nivell més important que té analitzacions de flux funcionant en producció a la part superior de la pila i estan avaluant que enfront d’un altre venedor molt conegut i molt gran i només es van convèncer després d’haver-ho demostrat tot. el rendiment, l'estabilitat i totes aquestes coses. No ho donen per fet. Es van assabentar que el codi obert és competent a través de les seves avaluacions i s’adonen que, el pitjor dels casos, “Potser hi ha dos casos d’ús que potser no puc fer, però la majoria dels casos d’ús d’acceleració de les meves empreses actualment són eminentment possibles amb el codi obert. apilem. ”I l’utilitzem. Així que és el lloc més dolç que hi ha aquí. Volien el codi obert. Realment busquen sortir de la situació de bloqueig del venedor amb la qual estan acostumats durant molts, molts anys. Llavors venim i diem: "Sabeu què, farem que el codi obert sigui molt més fàcil i amè d'utilitzar per vosaltres".

Dez Blanchfield: Crec que l’altre repte que es troben a les empreses és quan aporten la tradicional posició que sovint són una generació darrere d’alguns dels límits sagnants de les coses interessants de què parlem aquí i no vull dir que com a lleu negativa. La realitat és que han de recórrer una generació i un recorregut per llançar allò que consideren plataformes estables per passar, cicles de desenvolupament de vells centres i integració de la UATN i proves i documentació, comercialització i vendes. Si bé, en el tipus que esteu fent, crec que el que estic interessat en pensar és que, veure ahir a la nit algunes de les vostres darreres versions, realitzant algun tipus de treball de recerca, ara teniu aquest mix on obteniu el competències des d'un punt de vista de consultoria i una implementació inicial, però també teniu una pila que podeu implementar. Crec que aquí és on lluitaran els titulars durant algun temps. Hem vist molts d’ells com jo, al mercat. Sovint es troben en els que anomeno nodes de captura, mentre que del que ens està dient quan estàs allà fent aquestes converses i estàs allà implementant.

Podeu donar-nos un parell d’exemples d’algunes de les verticals de frontera que heu vist en adopció? Per exemple, hi ha un entorn molt bo com els coets i posar satèl·lits a l’espai i recopilar dades de Mart. Només hi ha un bon grapat de persones que ho fan al planeta. Però hi ha grans verticals com la salut, per exemple, en aeronàutica, en transport marítim i en logística, en fabricació i enginyeria, quins són alguns exemples dels sectors més grans i amplis de la indústria fins al moment que heu vist realment bons. adopció a?

Anand Venugopal: Telco és un gran exemple.

Vaig a arreglar ràpidament les meves diapositives aquí. Podeu veure la diapositiva aquí, estudi de cas 4?

Aquest és el cas d’un gran telco que ingereix dades de caixa de canvis i fa diverses coses amb ell. Estan buscant el que realment fan els clients en temps real. Estan buscant on es produeixen els errors en temps real en els quadres de configuració. Estan intentant informar el centre de trucades, si aquest client truca ara mateix, la informació de l’enllaç de codi de la caixa de configuració d’aquest client, la informació del bitllet de manteniment correlacionarà ràpidament si aquest quadre de configuració d’aquest client en particular té un problema o no fins i tot abans el client parla una paraula. Totes les empreses de cable, tots els grans telco estan intentant fer-ho. Ingereixen les dades del quadre de configuració, fan analítiques en temps real, fan analítiques de campanya perquè puguin publicar els anuncis. Hi ha un cas d’ús enorme.

Com he dit, hi ha aquesta empresa hipotecària que torna a ser un patró genèric en què hi participen grans sistemes per processar dades. Les dades que flueixen pel sistema A al sistema B fins al sistema C i són negocis regulats que tot ha de ser coherent. Sovint, els sistemes no se sincronitzen els uns amb els altres, un sistema diu: "Estic processant cent préstecs amb un valor total de 10 milions de dòlars". El sistema diu: "No, estic processant 110 préstecs d'alguns altres un número diferent. ”Han de resoldre això de forma ràpida perquè de fet processen les mateixes dades i fan interpretacions diferents.

Tant si es tracta d’una targeta de crèdit, un processament de préstecs, un procés empresarial o si es tracta d’un procés empresarial d’hipoteca o una altra cosa, els ajudem a fer correlació i conciliació en temps real per garantir que aquests processos comercials es mantinguin sincronitzats. Aquest és un altre cas d’ús interessant. Hi ha un important contractista del govern dels Estats Units que busca el trànsit DNS per detectar anomalies. Hi ha un model de formació fora de línia que van crear i que fan la puntuació basada en aquest model en trànsit en temps real. Alguns d’aquests casos d’ús interessants. Hi ha una companyia aèria important que mira les cues de seguretat i tracta d’informar-vos que, “Hola, és la porta d’entrada del vostre vol per a l’avió. La cua de TSA d'avui és d'aproximadament 45 minuts enfront de dues hores enfront d'una altra cosa ". Obteniu aquesta actualització prèviament. Encara hi treballen. Cas d’ús IoT interessant, però gran cas d’analitzar la transmissió en directe a l’experiència del client.

Rebecca Jozwiak: Aquesta és Rebecca. Mentre estàs relacionat amb els casos d’ús, hi ha una gran pregunta d’un membre de l’audiència que es pregunta: “Són estudis de cas, aquestes iniciatives es basen en la part analítica de la informació de la casa o es condueixen més a sobre el negoci que té en compte preguntes o necessitats específiques? ”

Anand Venugopal: Crec que veiem aproximadament entre el 60% i el 50%, el 55% el 55%, iniciatives tecnològiques en gran mesura molt proactives i entusiastes que coneixen, que són prou experimentades i comprenen determinats requisits empresarials i probablement tinguin un patrocinador que ells. identificats, però es tracta d’equips tecnològics que s’estan preparant per als problemes d’ús de negocis a l’hora i, un cop construïts la capacitat, saben que poden fer-ho i després van a negocis i venen de forma agressiva. Entre el 30 i el 40 per cent dels casos, veiem que el negoci ja té un cas d’ús particular que demana una capacitat d’analítica en temps real.

Rebecca Jozwiak: Té sentit. Tinc una altra pregunta lleugerament més tècnica d'un membre de l'audiència. Ell es pregunta si aquests sistemes admeten fluxos de dades estructurats i no estructurats, com els sediments de fluxos de Twitter o publicacions de Facebook en temps real, o necessita ser filtrats inicialment?

Anand Venugopal: Els productes i tecnologies de què parlem donen suport molt imminent tant a les dades estructurades com a les que no estan estructurades. Es poden configurar. Totes les dades tenen algun tipus d’estructura, ja sigui un text, un XML o qualsevol cosa. Hi ha alguna estructura pel que fa a que es faci un compte de temps. Hi ha potser un altre bloc que cal analitzar perquè pugueu injectar parses al flux per analitzar les estructures de dades. Si està estructurat, només li diem al sistema: "D'acord, si hi ha valors separats per una coma i el primer és una cadena, el segon és una data". Així, podem injectar aquesta anàlisi d'intel·ligència a les capes de la pantalla superior i processa fàcilment dades estructurades i no estructurades.

Rebecca Jozwiak: Tinc una altra pregunta del públic. Sé que hem passat una mica més amunt de l’hora. Aquest assistent vol saber-ho, sembla que les aplicacions de reproducció en temps real poden desenvolupar una necessitat i una oportunitat per integrar-se en sistemes de transacció, com ara, per exemple, sistemes de prevenció de fraus. En aquest cas, cal ajustar els sistemes de transacció per adaptar-se a això?

Anand Venugopal: És una fusió, oi? És una combinació de sistemes de transacció. De vegades es converteixen en la font de dades on analitzem les transaccions en temps real i, en molts casos, diguem que hi ha un flux d’aplicacions i aquí estic intentant mostrar un lloc de cerca estàtica de dades i, en el nostre cas, un tipus de streaming. dins i cerqueu una base de dades estàtica com una HBase o un RDBMS per enriquir les dades de transmissió i les dades estàtiques junts per prendre una decisió o una visió analítica.

Hi ha una altra tendència important de la indústria que també veiem (la convergència d’OLAP i OLTP) i és per això que teniu bases de dades com Kudu i bases de dades a la memòria que admeten alhora transaccions i processament analític. La capa de processament de flux quedaria completament a la memòria i estudiarem o interconnectarem amb algunes d’aquestes bases de dades transaccionals.

Rebecca Jozwiak: Crec que la càrrega de treball mixta ha estat un dels últims obstacles per saltar. Dez, Robin, teniu alguna pregunta més?

Dez Blanchfield: Em dirigeixo a una última pregunta i em compliré, si no t'importa. El primer repte que han tractat les organitzacions amb les que he tractat durant la dècada passada o més que portava a aquest emocionant repte de l’analítica de fluxos, el primer que solen tornar a posar sobre la taula quan vam iniciar la conversa al voltant de tot aquest repte és on fer-ho. obtenim el conjunt d’habilitats? Com recuperem el conjunt d’habilitats i com aconseguim aquesta capacitat internament? El fet que Impetus ens entri i la mà ens mantingui durant el viatge i, a continuació, s’implementi com un gran pas i té molt de sentit fer-ho.

Però, per a una organització de mitjana a gran, quins són els tipus de coses que estàs veient en aquest moment per preparar-se, construir aquesta capacitat internament, obtenir qualsevol vocabulari bàsic al seu voltant i quin tipus de missatge poden fer? l’organització al voltant de la transició cap a aquest tipus de marc i la retirada del seu personal tècnic existent de TI del CEO per tal que puguin funcionar ells mateixos una vegada que l’hagis creat i implementat? De forma molt breu, quins tipus de reptes i com es resolen, els clients que tracta, els tipus de reptes que han trobat i com passen per resoldre aquesta recuperació i recuperar experiència i coneixements per preparar-se per a això i ser capaç de fer una volta operativa?

Anand Venugopal: Sovint, el petit grup de persones que intenta sortir i comprar una plataforma d’analítica de streaming ja és raonablement intel·ligent, ja que són conscients d’Hadoop, ja han aconseguit les seves habilitats Hadoop MapReduce i perquè treballen estretament amb Hadoop proveïdor de distribució, ja són familiars. Tot és aconseguir Kafka, per exemple. Estan fent alguna cosa amb això i el streaming de Storm o Spark és al seu domini de codi obert. Sens dubte, la gent està familiaritzada amb ella o bé treballa entorn d'ells. Però comença amb un conjunt reduït de persones que són prou hàbils i prou intel·ligents. Assisteixen a conferències. Estan aprenent i que fan preguntes intel·ligents als venedors i, en alguns casos, aprenen amb els venedors. A mesura que venen els venedors i es presenten a la primera reunió, és possible que no sàpiguen coses, però que coplegeixen i, a continuació, comencen a jugar-hi.

Aquest grup reduït de persones és el nucli, i aleshores comença a créixer i ara tothom s’adona que el primer cas d’ús empresarial es posa en funcionament. Comença una onada i vam veure a la cimera de Spark la setmana passada on una gran empresa com Capital One estava allà fora i amb força. Van optar per Spark. En parlaven. Estan educant molta gent a Spark perquè hi contribueixen també en molts casos com a usuari. Veiem el mateix amb moltes, moltes grans empreses. Comença amb alguns grups reduïts de persones molt intel·ligents, i després comença una onada d’educació general i la gent sap que una vegada que un VP sènior o una vegada un director superior s’alinea i volen apostar per això i la paraula s’envolta i tots comencen a agafar aquestes habilitats.

Dez Blanchfield: Estic segur que també teniu un moment fantàstic construint aquests campions.

Anand Venugopal: Sí. Fem molta educació a l’hora de treballar amb els campions inicials i fem cursos de formació i molts, molts per als nostres grans clients hem tornat enrere i hem tingut onades i onades de formació per incorporar molts usuaris a la fase d’ús principal sobretot. al lloc Hadoop MapReduce. Vam trobar que en una gran empresa de targetes de crèdit que és client nostra, hem lliurat almenys entre cinc i vuit programes de formació diferents. També tenim edicions comunitàries gratuïtes de tots aquests productes, inclosos els nostres, caixes de sorra que la gent pot descarregar, acostumar-se i educar-se d’aquesta manera també.

Dez Blanchfield: Tot això tinc per a tu aquest matí. Moltes gràcies. Trobo increïblement interessant veure els tipus de models i els casos d’ús que teniu per a nosaltres avui en dia. Gràcies.

Anand Venugopal: Genial. Moltes gràcies persones.

Rebecca Jozwiak: Gràcies a tots per unir-nos a nosaltres en aquest webcast de Hot Technologies. Ha estat fascinant sentir de Dez Blanchfield, el doctor Robin Bloor i d'Imppetus Technologies, Anand Venugopal. Gràcies presentadores. Gràcies ponents i gràcies públic. Tenim una altra tecnologia calenta el mes que ve, així que busqueu això. You can always find our content archived at Insideanalysis.com. We also put lots of content up on SlideShare and some interesting bits on YouTube as well.

That's all folks. Thanks again and have a good day. Bye, bye.

Aprofitament de la firehose: obtenint valor empresarial de l'analítica de streaming: transcripció del webinar