Casa Maquinari Ferro gran, compliment de dades grans: alliberació de dades de mainframe amb clapa i espurna

Ferro gran, compliment de dades grans: alliberació de dades de mainframe amb clapa i espurna

Anonim

Per Techopedia Staff, 2 de juny de 2016

Plats de menjar: L’ecosistema Hadoop s’està utilitzant en mainframes per processar dades de forma ràpida i eficient.

Actualment no teniu la sessió iniciada. Inicieu la sessió o registreu-vos per veure el vídeo.

Eric Kavanagh: Moltes senyores i senyors, és a les quatre de la nit de l'est i un dijous, i això vol dir que és hora de les tecnologies calentes. Sí, efectivament, em dic Eric Kavanagh. Seré el vostre moderador per al seminari web d'avui. És una bona cosa, gent, "Big Iron, Meet Big Data" - Només m'encanta aquest titular - "Alliberar les dades del Mainframe amb Hadoop i Spark". Parlarem de nous que ve de nou. Uau! Estem cobrint tot l’espectre de tot el que hem parlat en els darrers 50 anys d’informàtica empresarial. Spark compleix mainframe, m'encanta.

Hi ha un lloc sobre el vostre veritablement i prou sobre mi. L’any és calorós. Parlem de temes candents d’aquesta sèrie perquè realment intentem ajudar la gent a comprendre determinades disciplines, certs espais. Què vol dir, per exemple, tenir una plataforma analítica? Què vol dir alliberar dades grans del mainframes? Què significa tot això? Estem intentant ajudar-vos a comprendre tipus específics de tecnologies, en què s’integren en la combinació i com en podeu fer servir.

Avui tenim dos analistes i, per descomptat, Tendü Yogurtçu de Syncsort. És una visionària al nostre espai, molt satisfeta de tenir-la en línia avui, amb el nostre propi Dez Blanchfield i el doctor Robin Bloor. Diré només un parell de paraules ràpides. Una és que, amics, feu un gran paper en aquest procés, així que si us plau, no tímiu fent algunes bones preguntes. Ens agradaria acudir a ells durant el component de Q&A de la transmissió web, que sol estar al final de l'espectacle. I tot el que he de dir és que tenim molt bon contingut, així que estic emocionat de saber què han de dir aquests nois. I amb això, vaig a lliurar-ho a Dez Blanchfield. Dez, el pis és teu, treu-lo.

Dez Blanchfield: Gràcies, Eric, i gràcies a tots per haver assistit avui. Així que em faig molta il·lusió quan tinc l'oportunitat de parlar d'una de les meves coses preferides del món, els fotogrames principals. No tenen gaire amor en aquests dies. La meva opinió és que el mainframe era la plataforma de dades gran original. Alguns podrien argumentar que ells eren l’únic ordinador en aquell moment i això és un fet raonable, però ara fa més de 60 anys que realment han estat la sala de màquines d’allò que fins ara ha estat popular en l’actualitat. I us faré un petit viatge per què crec que és així.

Hem vist un viatge en les piles de maquinari tecnològic en el context de fotogrames principals canviar de la imatge que veieu a la pantalla ara. Aquest és un fotograma antic de FACOM, un dels meus preferits. Ens hem passat a la gran fase del ferro, a finals dels noranta i al boom punt-com. Es tracta del Sun Microsystems E10000. Això era un monstre absolut a 96 CPU. Originalment 64, però es podia actualitzar a 96 CPU. Cada CPU podria executar 1.024 fils. Cada fil podria tenir un ritme d'aplicació al mateix temps. Va ser només monstruós i va impulsar l'auge del punt-com. Es tracta de tots els grans unicorns com els anomenem, ara funcionem i no només les grans empreses, alguns dels grans llocs web.

I després vam acabar amb aquest model comú de PC de productes bàsics fora de la plataforma. Acabem de combinar moltes màquines econòmiques i vam crear un clúster i vam abordar el gran repte del ferro i el que es va convertir en grans dades, especialment en la forma del projecte Hadoop que va originar el motor de cerca de codi obert, Nutch. I, bàsicament, vam recrear el mainframe i un munt de petites CPU que s’uneixen i que podien actuar com a rutes L i en forma d’executar treballs separats o parts de treballs i eren força efectives de moltes maneres. Més barat si vau començar més petit, però invariablement molts d’aquests grans clústers han arribat a ser més cars que un mainframe.

La meva opinió sobre aquestes coses és que, en la marxa des del boom puntual fins al que es va convertir en Web 2.0 i ara perseguint unicorns, hem oblidat que encara hi ha aquesta plataforma que alimenta molts dels nostres sistemes més importants per a la missió. Quan pensem en què hi ha a les plataformes de mainframe que hi ha. Es tracta molt de les dades grans, particularment de la màquina de dades, però sens dubte de les grans dades. Els sistemes tradicionals d’empreses i governs, com ara la banca i la gestió de riqueses i les assegurances, en particular, fem servir tots els dies.

Sistemes de reserva de vols i de gestió de vols, en particular la gestió de vols en temps real. Gairebé tots els governs estatals i federals en algun moment han tingut un fotograma i, sempre, molts encara en tenen. Venda al detall i fabricació. Alguns dels antics programes que han estat al voltant i mai no han desaparegut. Només continua alimentant els entorns de fabricació i, certament, al detall a escala. Sistemes mèdics. Sistemes de defensa, certament sistemes de defensa.

Aquest últim parell de setmanes he llegit molts articles sobre el fet que alguns dels sistemes de control de míssils segueixen funcionant en fotogrames antics en què estan buscant peces. Estan esbrinant com actualitzar a fotogrames nous. Sistemes de transport i logística. És possible que no semblin temes atractius, però aquests són els temes que tractem diàriament a través de les línies. I encara es mantenen alguns entorns de telecomunicacions molt grans a les plataformes mainframe.

Quan penseu en els tipus de dades que hi ha, tots són crítics per a la missió. Són plataformes i plataformes molt importants que donem per descomptat cada dia i, de moltes maneres, fan possible la vida. Però, qui segueix fent servir un mainframe i qui són totes aquestes persones que mantenen aquestes grans plataformes i mantenen totes aquestes dades? Bé, com he dit aquí, crec que és fàcil deixar-nos enganyar pel canvi dels mitjans de ferro de ferro a grans muntatges de clústers fora de la prestatgeria, ordinadors barats o màquines x86, pensant que el mainframe va morir i es va anar. Però les dades diuen que el mainframe mai no s’ha anat i de fet és aquí per quedar-se.

La investigació que he reunit aquí durant les darreres setmanes ha demostrat que el 70 per cent de les empreses, especialment les grans, encara resideixen en un quadre majoritari d’alguna forma. El 70% de Fortune 500 és capaç de gestionar sistemes de negocis bàsics en grans parts en algun lloc. De fet, a Austràlia, hi ha diverses organitzacions que tenen un centre de dades al centre d’una ciutat. Es tracta d’un ordinador subterrani realment eficaç, i la quantitat de fotogrames només hi funcionen, fan marques i fan feliçment la seva feina. I molt poca gent sap que passejant pels carrers, just als seus peus en una part determinada de la ciutat, hi ha un enorme centre de dades ple de fotogrames. Novanta-dos de cada 100 dels bancs de tot el món, els 100 primers bancs, és a dir, encara funcionen sistemes bancaris en grans trames. Vint-i-tres de les 25 principals cadenes minoristes de tot el món utilitzen fotogrames per executar els seus sistemes de gestió minorista en plataformes EIP i BI.

Curiosament, 10 de les 10 companyies d'assegurança segueixen executant les seves plataformes en mainframe i, de fet, alimenten els serveis en núvol a mainframe. Si utilitzeu una interfície web o una aplicació per a mòbils en algun lloc que hi ha un intermèdia central, en realitat es parla amb una cosa realment pesada i important a la part posterior.

He trobat més de 225 agències governamentals estatals i locals a tot el món que funcionen en plataformes mainframe. Estic segur que hi ha molts motius. Potser no tenen el pressupost per plantejar-se ferro nou, però és una enorme empremta d’ambients molt grans que s’executen en mainframe amb algunes dades molt importants. I com he esmentat anteriorment, la majoria de països encara funcionen amb sistemes de defensa claus en mainframe. Estic segur que de moltes maneres intenten baixar-hi, però hi aneu.

El 2015, IDC va realitzar una enquesta i 350 de les CIOs enquestades van informar que encara eren propietàries i administrades de ferro en forma de mainframes. I em va cridar l'atenció el més probable que sigui més que el nombre de clústers Hadoop a gran escala que actualment funcionen a tot el món en producció. Vaig a avançar i a validar això, però va ser un gran nombre. Tres-cents cinquanta CIOs van informar que encara tenen un o més fotogrames principals.

L’any passat, 2015, IBM ens va proporcionar la poderosa Z13, la 13a iteració de la seva plataforma mainframe. Els mitjans de comunicació es van preocupar d'això perquè es va sorprendre que IBM encara creés fotogrames. Quan van aixecar la caputxa i van examinar el que hi havia sota aquesta cosa, es van adonar que realment es trobava a l’altura de gairebé totes les plataformes modernes de les quals ens vam entusiasmar en forma de big data, Hadoop i, certament, els clústers. Aquesta cosa va funcionar Spark i ara Hadoop de forma nativa. Podeu executar-hi milers i milers de màquines Linux, i semblava com qualsevol altre clúster. Era una màquina sorprenent.

Algunes organitzacions van agafar aquestes coses i, de fet, vaig fer algunes dades sobre quantes d'aquestes màquines estan assumint. Ara he pensat que el terminal de text 3270 ha estat substituït per navegadors web i aplicacions mòbils des de fa temps i hi ha moltes dades que ho suporten. Crec que ara estem entrant en una era en què ens hem adonat que aquests fotogrames no desapareixen i que hi ha una quantitat important de dades. Llavors, el que fem ara és simplement afegir allò que anomeno eines d’analítica fora de la plataforma. Aquestes no són aplicacions personalitzades. Són coses que s’elaboren individualment. Es tracta de coses que, literalment, només podeu comprar en una caixa envasada per si mateix i connectar-vos al mainframe i fer algunes analítiques.

Com he dit abans, el mainframe ja fa més de 60 anys que hi viu. Quan pensem sobre el temps que passa, això és més llarg del que en realitat treballen la majoria de professionals de les TI. I, de fet, probablement algunes de les seves vides, fins i tot. El 2002, IBM va vendre 2.300 fotogrames. El 2013 va créixer a 2.700 fotogrames. Es tracta de 2.700 vendes de fotogrames en un any el 2013. No puc obtenir dades exactes sobre el 2015, però imagino que s’acosta ràpidament a les 3.000 unitats venudes l’any 2015, 2013. I espero poder confirmar-ho.

Amb l’alliberament de la Z13, la 13a iteració d’una plataforma mainframe, que crec que els va costar al voltant d’uns 1, 2 o 1, 3 bilions de dòlars per desenvolupar-se des de zero, IBM és a dir, aquí teniu una màquina que sembla i se sent com qualsevol altre clúster que avui en dia tenim i Hadoop i Spark de forma nativa. I, certament, es pot connectar des d’altres analítiques i eines de dades grans o connectar-se invariablement a un dels seus clústers Hadoop existents o nous. Tinc aquesta visió que incloure la plataforma de mainframe en la vostra estratègia de big data. Evidentment, si en teniu, en teniu moltes dades i voleu esbrinar com treure-la. I es deixa recollir pols de moltes maneres, mental i emocionalment pel que fa al món empresarial, però són aquí per quedar-se.

La connectivitat i les interfícies per a totes les vostres eines d’anàlisi amb dades allotjades en mainframe haurien de ser una part clau del vostre negoci i, en particular, dels plans de dades de gran govern. I, actualment, el programari els està fent notar, fent una bona estona i es donen compte del que hi ha dins d’aquestes coses i connecten ments que comencen a tenir una mica de visió i una mica de visió del que hi ha en realitat. I amb això vaig a lliurar al meu estimat col·lega, el doctor Robin Bloor, i s’afegirà a aquest petit viatge. Robin, treu-ho.

Robin Bloor: Bé, gràcies. Està bé, des que Dez ha cantat la cançó del mainframe, aprofundiré en el que crec que està passant pel que fa al vell món del fotograma i al nou món Hadoop. Suposo que la gran pregunta aquí és, com gestiona totes aquestes dades? No crec que el meu mainframe s'estigui disputant el problema en relació a la seva gran dada: la seva capacitat de dades gran és, com ha assenyalat Dez, que és extremadament capaç. De fet, podeu incorporar agrupaments Hadoop. On es posa en qüestió és en termes del seu ecosistema i en tinc una mica detallat.

A continuació, es detallen alguns posicionament de fotogrames. Té un cost d’entrada elevat i el que ha passat realment en el passat, des de mitjans dels anys 90 quan va començar a disminuir la popularitat dels fotogrames principals, es tendeix a haver perdut la seva gamma baixa, aquelles persones que havien comprat fotogrames barats i no. Realment no és especialment econòmic per a aquestes persones. Però, en realitat, a la gamma mitjana i alta del fotograma principal, encara era, i és, realment, una informàtica increible.

Cal dir que ha estat rescatat per Linux perquè Linux implementat en un mainframe va permetre, per descomptat, executar totes les aplicacions de Linux. Hi ha hagut moltes aplicacions Linux abans que les grans dades fossin fins i tot una paraula o dues paraules. En realitat és una plataforma relativament excel·lent per al núvol privat. Per això pot participar en desplegaments de núvols híbrids. Un dels problemes és que les habilitats del mainframe tenen poca oferta. Les habilitats bàsiques que existeixen són envellir en realitat, ja que la gent abandona la indústria per a la jubilació any rere any i només se substitueixen pel que fa al nombre de persones. Així és un problema. Però no deixa de ser una informàtica barata.

Per descomptat, l'àrea de repte ha estat tota aquesta cosa. Aquesta és una imatge de Doug Cutting amb l'elefant Hadoop original. L’ecosistema Hadoop és i continuarà sent l’ecosistema de big data dominant. Ofereix una escala més bona del que realment pot assolir el mainframe i, a llarg termini, és un cost inferior com a magatzem de dades. L’ecosistema Hadoop està evolucionant. La millor manera de pensar-ho és un cop una plataforma de maquinari determinada i l’entorn operatiu amb ell es fa dominant, i l’ecosistema acaba de viure. I això va passar amb el mainframe IBM. Bé, més tard va passar amb el digital VAX, va passar amb els servidors de Sun, va passar amb Windows, va passar amb Linux.

I el que ha passat és que Hadoop, que sempre penso o voldria pensar com un tipus d’ambient distribuït per a dades, l’ecosistema evoluciona a un ritme increïble. Vull dir si només esmentes les diverses contribucions impressionants que són de codi obert, Spark, Flink, Kafka, Presto, i després afegiries a algunes de les bases de dades, a les funcions NoSQL i SQL que ara es troben a Hadoop. Hadoop és l’ecosistema més actiu que existeix realment fora d’aquí, certament en informàtica corporativa. Però si voleu tractar-lo com a una base de dades, actualment no té cap comparació amb el que jo solc pensar en bases de dades reals, especialment a l’espai del magatzem de dades. I això explica fins a cert punt l’èxit de diverses grans bases de dades NoSQL que no funcionen a Hadoop com CouchDB, etc.

Com a llac de dades, té un ecosistema molt més ric que qualsevol altra plataforma i no es desplaçarà. El seu ecosistema no és només un ecosistema de codi obert. Ara hi ha un nombre considerable de membres de programari que tenen productes que es basen fonamentalment en Hadoop o que s’han importat a Hadoop. I acaben de crear un ecosistema que no hi ha res que pugui competir-hi pel que fa a la seva amplitud. I això vol dir que realment s’ha convertit en la plataforma per a la innovació de grans dades. Però, segons la meva opinió, encara és immadur, i podríem tenir llargues discussions sobre el que és i no és, per exemple, madurat operativament amb Hadoop, però crec que la majoria de les persones que miren aquesta zona concreta saben que Hadoop està a dècades darrere del mainframe. en termes de capacitat operativa.

El llac de dades en evolució. El llac de dades és una plataforma per qualsevol definició i si penses que hi ha una capa de dades en informàtica corporativa, ara és molt fàcil pensar-ho en termes de bases de dades fixes, més el llac de dades que compon la capa de dades. Les aplicacions del llac de dades són moltes i variades. Aquí tinc un diagrama que només recorre les diverses dades relacionades amb els problemes que cal fer si feu servir Hadoop com a zona d’escenificació o Hadoop i Spark com a zona d’escenificació. I tens tot el tema - llinatge de dades, neteja de dades, gestió de metadades, descobriment de metadades - es pot utilitzar per ETL en si, però sovint requereix ETL per portar-ne les dades. Gestió de dades màster, definicions comercials de dades, gestió de serveis de què passa a Hadoop, a la gestió de dades del cicle de vida i a ETL de Hadoop, i també teniu aplicacions d’analítica directa que podeu executar a Hadoop.

I és per això que s’ha convertit en molt potent i on s’ha implementat i implementat amb èxit, normalment té almenys una col·lecció d’aquest tipus d’aplicacions que s’executen al damunt. I la majoria d’aquestes aplicacions, en particular les que m’han informat, ara mateix no estan disponibles al mainframe en aquest moment. Però podeu executar-los al mainframe, en un clúster Hadoop que s’executava en una partició del mainframe.

El llac de dades s’està convertint, segons la meva opinió, en l’àrea natural d’escenificació d’analítica de bases de dades ràpida i de BI. Es converteix en el lloc on agafar les dades, ja siguin dades corporatives o externes, embolicades fins que sigui, diguem-ne, prou net per utilitzar i ben estructurat per utilitzar-lo, i després les transmetem. I tot plegat encara està a la seva infància.

La idea, segons la meva opinió, de convivència mainframe / Hadoop, el primer és que és probable que les grans empreses abandonin el mainframe. De fet, les indicacions que he vist recentment impliquen que hi hagi una inversió creixent en el mainframe. Però tampoc ignoraran l'ecosistema d'Hadoop. Veig xifres del 60 per cent de les grans empreses que utilitzen Hadoop, fins i tot si moltes són realment només prototipo i experimentació.

El conundrum és llavors: "Com conviu que conviuen aquestes dues coses?", Ja que hauran de compartir dades. Les dades que s’introdueixen al llac de dades que necessiten transferir al mainframe. És possible que les dades que hi ha al mainframe hagin d’anar al llac de dades o a través del llac de dades per unir-se a altres dades. I això passarà. I això vol dir que necessita transferència ràpida de dades / capacitat ETL. És poc probable que es comparteixin de forma dinàmica les càrregues de treball amb, per exemple, en un entorn mainframe o amb alguna cosa en un entorn Hadoop. Seran dades que es comparteixen. I la majoria de les dades inevitablement es trobaran a Hadoop simplement perquè és la plataforma de baix cost. I el processament analític de punta a punta també hi residirà.

En resum, en última instància, cal pensar en una capa de dades corporatives, que per a moltes empreses inclourà el fotograma principal. I aquesta capa de dades s'ha de gestionar proactivament. En cas contrari, els dos no conviuran bé. Et puc passar la pilota a tu Eric.

Eric Kavanagh: Una vegada més, Tendü acaba de fer-vos el presentador, per tant, feu-ho.

Tendü Yogurtçu: Gràcies, Eric. Gràcies per tenir-me. Hola a tothom. Parlaré de l'experiència de Syncsort amb els clients en relació amb la manera com veiem les dades com un actiu a l'organització, des del mainframe al big data de les plataformes d'analítica. I espero que també tinguem temps al final de la sessió per tenir preguntes del públic perquè realment és la part més valuosa d’aquests transmissions web.

Només per a persones que no saben què fa Syncsort, Syncsort és una empresa de programari. Hem estat al voltant de més de 40 anys. Començats pel costat del mainframe i els nostres productes van des de mainframe fins a Unix fins a plataformes de dades grans, incloses Hadoop, Spark, Splunk, tant en premissa com al núvol. El nostre objectiu sempre ha estat en productes de dades, processament i integració de dades.

La nostra estratègia pel que fa a big data i Hadoop ha estat realment formar part de l’ecosistema des del primer dia. Com a propietaris de venedors que s’han centrat realment en el processament de dades amb motors molt lleugers, vam pensar que hi havia una gran oportunitat de participar en Hadoop convertint-se en una plataforma de processament de dades i formar part d’aquesta arquitectura de magatzem de dades de propera generació. Des del 2011 col·laborem en els projectes Apache de codi obert, a partir de MapReduce. He estat al top ten per a la versió 2 de Hadoop i he participat en diversos projectes, incloent-hi els paquets Spark, alguns dels nostres connectors es publiquen en els paquets Spark.

Utilitzem el nostre motor de processament de dades molt lleuger que és completament metadat basat en fitxers i s’adapta molt bé amb els sistemes de fitxers distribuïts com el Sistema d’arxius distribuïts Hadoop. I aprofitem el nostre patrimoni en el mainframe, la nostra experiència amb algoritmes a la vegada que posem en pràctica els nostres productes de grans dades. I col·laborem molt estretament amb els principals venedors, grans agents aquí inclosos Hortonworks, Cloudera, MapR, Splunk. Hortonworks va anunciar recentment que revendrà el nostre producte per a embarcacions ETL amb Hadoop. Amb Dell i Cloudera, tenim una col·laboració molt estreta que també revela el nostre producte ETL com a part del seu gran dispositiu de dades. I amb Splunk, publicem una telemetria i dades de seguretat de mainframe als taulers de control de Splunk. Tenim una estreta col·laboració.

Què hi ha al cap de tots els executius del nivell C? És realment "Com puc fer servir els meus actius de dades?" Tots parlen de dades grans. Tothom parla d’Hadoop, Spark, la propera plataforma informàtica que pot ajudar-me a crear agilitat empresarial i a obrir noves aplicacions transformadores. Noves oportunitats de sortida al mercat. Tots els executius pensen: "Quina és la meva estratègia de dades, quina és la meva iniciativa de dades i com puc assegurar-me que no em quedaré enrere de la meva competència i que continuï en aquest mercat durant els propers tres anys?" vegeu això mentre parlem amb els nostres clients, mentre parlem amb la nostra base de clients global, que és bastant gran, com podeu imaginar, ja que portem una estona al voltant.

Mentre parlem amb totes aquestes organitzacions, també ho veiem en la pila de tecnologia en la interrupció que va passar amb Hadoop. És realment per tal de satisfer aquesta demanda de dades com a actiu. Aprofitar tots els actius de dades que té una organització. I hem vist com l’arquitectura del magatzem de dades empresarial evoluciona de manera que Hadoop ara és el nou eix central de l’arquitectura de dades moderna. I la majoria dels nostres clients, tant si es tracta de serveis financers, com d’assegurances, telco de venda al detall, les iniciatives solen trobar-nos a Hadoop com a servei o a dades com a servei. Perquè tothom està intentant que els actius de dades estiguin disponibles tant per als seus clients externs com per als seus clients interns. I en algunes de les organitzacions veiem iniciatives com gairebé un mercat de dades per als seus clients.

I un dels primers passos per aconseguir-ho és crear un centre de dades empresarial. De vegades la gent l’anomenarà llac de dades. La creació d'aquest centre de dades empresarial no és tan fàcil com sembla perquè realment requereix accedir i recopilar pràcticament qualsevol dada a l'empresa. I aquestes dades provenen de totes les fonts noves, com ara els sensors mòbils i les bases de dades antigues, que es troben en mode batch i en mode de streaming. La integració de dades sempre ha estat un repte, però, amb la quantitat i la varietat de fonts de dades i els diferents estils de publicació, ja siguin per lots o en temps real, en temps real, encara és més difícil en comparació amb fa cinc anys, fa deu anys. De vegades ens referim a això: "Ja no és l'ETL del teu pare".

Així doncs, parlem dels diferents actius de dades. Com que les empreses intenten donar sentit a les noves dades, les dades que recopilen dels dispositius mòbils, ja siguin els sensors d’un fabricant de vehicles o siguin les dades d’usuari d’una empresa de jocs mòbils, sovint han de fer referència als actius de dades més crítics a per exemple, l'empresa que és informació del client. Aquests actius de dades més crítics sovint es troben en el mainframe. Correlacionant les dades del fotograma principal amb aquestes noves fonts emergents, recollides al núvol, recollides a través del mòbil, recopilades a la línia de fabricació d’una empresa automobilística japonesa o a les aplicacions d’internet de coses, han de donar sentit a aquestes noves dades fent referència als conjunts de dades existents. I aquests conjunts de dades heretades es troben sovint al fotograma.

I si aquestes empreses no poden fer-ho, no poden aprofitar les dades del mainframe, hi ha una oportunitat perduda. Aleshores, les dades com a servei o aprofitar totes les dades empresarials no són realment propietats dels actius més crítics de l'organització. També hi ha una part de telemetria i dades de seguretat, ja que pràcticament totes les dades transaccionals viuen al mainframe.

Imagineu que anireu a un caixer automàtic, crec que un dels assistents ha enviat un missatge als participants aquí per protegir el sistema bancari, quan passeu la targeta que les dades transaccionals es troben pràcticament a la part general del fotograma. I protegir i recopilar les dades de seguretat i dades de telemetria de fotogrames principals i fer-les disponibles a través de taulers de comandament de Splunk o d’altres, Spark, SQL, es fa més crític ara que mai, a causa del volum de les dades i la varietat de les dades.

Un dels grans reptes és un conjunt de competències. Com que, per una banda, teniu una gran pila de dades que canvia ràpidament, no sabeu quin projecte sobreviurà, quin projecte no sobreviurà, hauria de contractar desenvolupadors de Rusc o Pig? He d’invertir en MapReduce o Spark? O el següent, Flink, va dir algú. Hauria d’invertir en una d’aquestes plataformes informàtiques? D’una banda, mantenir-se amb l’ecosistema que canvia ràpidament és un repte i, d’altra banda, teniu aquestes fonts de dades heretades. Els nous conjunts d’habilitats no coincideixen realment i és possible que tingueu un problema perquè aquests recursos es podrien retirar. Hi ha una gran bretxa pel que fa als conjunts d’habilitats de les persones que entenen les piles de dades heretades i que comprenen la pila de tecnologia emergent.

El segon repte és la governança. Quan realment accedeix a totes les dades de l'empresa a través de les plataformes, tenim clients que ens han preocupat: "No vull que les meves dades surtin. No vull copiar les meves dades en diversos llocs perquè vull evitar el màxim de còpies. Vull tenir un accés de punta a punta sense desembocar-hi al mig. ”Governar aquestes dades es converteix en un repte. I l’altra peça és que si estàs accedint a les dades que afecten els colls d’ampolla, si estàs recopilant la major part de les teves dades al núvol i accedint i referenciant dades anteriors, l’ample de banda de la xarxa es converteix en un problema, una plataforma de clúster. Hi ha molts reptes a l’hora de tenir aquesta iniciativa de big data i plataformes d’analítica avançada i aprofitar totes les dades empresarials.

El que ofereix Syncsort és que se’ns denomina “simplement el millor”, no perquè simplement siguem els millors, sinó que els nostres clients realment es refereixen a nosaltres com simplement els millors en accedir i integrar les dades del mainframe. Admetem tots els formats de dades del mainframe i el posem a la seva disposició per a les analítiques de dades grans. Ja sigui a Hadoop o Spark o a la següent plataforma informàtica. Perquè els nostres productes aïllen realment les complexitats de la plataforma informàtica. Com a desenvolupador, podreu desenvolupar-vos en un ordinador portàtil, centrant-vos en el pipeline de dades i quins són els preparatius de dades, els passos per crear aquestes dades per a l’analítica, la fase següent i prendre aquesta mateixa aplicació a MapReduce o prendre aquesta mateixa aplicació a Spark.

Vam ajudar els nostres clients a fer-ho quan YARN va estar disponible i van haver de traslladar les seves aplicacions de MapReduce versió 1 a YARN. Els estem ajudant a fer el mateix amb Apache Spark. El nou producte, el nou llançament 9, funciona també amb Spark i s’envia amb una optimització dinàmica que aïllarà aquestes aplicacions per a futurs marcs d’ordinadors.

Així, doncs, tenim accés a dades de fotograma principal, ja siguin fitxers VSAM, ja sigui DB2, o bé si es tracta de dades de telemetria, com els registres SMF, Log4j o syslogs, que cal visualitzar a través dels taulers de control de Splunk. I tot fent això, perquè l’organització pot aprofitar els seus enginyers de dades o conjunts d’habilitats ETL existents, el temps de desenvolupament es redueix significativament. De fet, amb Dell i Cloudera, hi havia un punt de referència independent patrocinat, i aquest punt de referència es va centrar en el temps de desenvolupament que es necessita si es fa codificació manual o s’utilitzen altres eines com Syncsort, i es redueix al 60% del 70 per cent en el temps de desenvolupament. . Compondre els espais de conjunts d’habilitats entre grups, entre els amfitrions de fitxers de dades, i també els amfitrions de fitxers de dades en funció de la gent.

No solen parlar amb l'equip de mainframe generalment l'equip de big data, o l'equip d'ingestió de dades, o l'equip encarregat de desenvolupar aquestes dades com a arquitectura de serveis. Volen minimitzar aquesta interacció gairebé en moltes de les organitzacions. Al tancar aquest desfasament, hem avançat. I la part més important és assegurar realment tot el procés. Perquè a l’empresa quan es tracta d’aquest tipus de dades sensibles hi ha molts requisits.

En indústries altament regulades com les assegurances i la banca, els nostres clients pregunten, van dir: “Oferiu aquest accés a les dades del mainframe i és fantàstic. També podeu oferir-me que tingui aquest format de registre codificat EBCDIC en el format original per poder satisfer els meus requisits d'auditoria? ”Així, doncs, fem que Hadoop i Apache Spark entenguin les dades del fotograma principal. Podeu conservar les dades en el format de registre original, fer la vostra plataforma informàtica de distribuïdor de processament i nivells, i si voleu tornar-lo a mostrar, no podeu canviar el registre i no canviar el format de registre, podeu complir amb els requisits normatius. .

I la majoria de les organitzacions, ja que estan creant el centre de dades o el llac de dades, també estan intentant fer-ho en un sol clic per poder mapar metadades des de centenars d’esquemes d’una base de dades d’Oracle fins a taules Hive o fitxers ORC o Parquet. esdevé necessari. Enviem eines i proporcionem eines perquè aquest sigui un accés a les dades d’un sol pas, treballs de generació automàtica o el moviment de dades i treballs de generació automàtica per fer el mapeig de dades.

Hem parlat de la part de connectivitat, el compliment, la governança i el processament de dades. I els nostres productes estan disponibles tant com a premissa com al núvol, cosa que el fa realment molt senzill perquè les empreses no necessiten pensar en què passarà el proper any o dos si decideixo anar completament al núvol públic vers híbrid. entorn, ja que alguns dels clústers poden funcionar en premissa o al núvol. I els nostres productes estan disponibles tant a Amazon Marketplace, com a EC2, Elastic MapReduce i també a un contenidor Docker.

Només cal fer un rellotge, de manera que disposem de temps suficient per fer preguntes i preguntes, es tracta realment d’accedir, integrar i complir amb el govern de les dades, però simplificar-ho. I tot simplificant això, “dissenyeu i desplegueu-les a qualsevol lloc” en un sentit real a causa de les nostres aportacions de codi obert, el nostre producte funciona de forma nativa en el flux de dades de Hadoop i originàriament amb Spark, aïllant les organitzacions de l’ecosistema que canvia ràpidament. I proporciona una sola canalització de dades, una única interfície, tant per lots com per streaming.

I això també ajuda a les organitzacions a vegades a avaluar aquests marcs, perquè és possible que vulgueu crear aplicacions i simplement executar-se a MapReduce vers Spark i veure per si mateix, sí, Spark té aquesta promesa i proporciona tots els avenços en els algoritmes iteratius que funcionen per al millor aprenentatge automàtic i les aplicacions d’analítica predictiu funcionen amb Spark, també puc fer les meves càrregues de treball en streaming i lots realitzades en aquest ordinador? Podeu provar diferents plataformes informàtiques mitjançant els nostres productes. I l’optimització dinàmica tant si s’executa en un servidor autònom, com a portàtil, a Google Cloud vers Apache Spark, és una proposta de gran valor per als nostres clients. I realment es va impulsar els reptes que tenien.

Acabaré de cobrir un dels estudis de cas. Es tracta de Guardian Company Insurance Insurance. La iniciativa de Guardian va ser realment centralitzar els seus actius de dades i posar-los a disposició dels seus clients, reduir el temps de preparació de dades i van dir que tothom parla de la preparació de les dades amb un 80 per cent del pipeline global de processament de dades i van dir que de fet s'aprofitava Del 75 al 80 per cent per a ells i volien reduir aquesta preparació de les dades, els temps de transformació, el temps per comercialitzar els projectes d’analítica. Creeu aquesta agilitat a mesura que afegeixen noves fonts de dades. Feu que l'accés a les dades centralitzades estigui disponible per a tots els seus clients.

La seva solució, inclosos els productes Syncsort, és que ara tenen un mercat de dades en forma similar a Amazon Marketplace suportat per un llac de dades, que és bàsicament base de dades Hadoop i NoSQL. I utilitzen els nostres productes per portar tots els actius de dades al llac de dades, inclòs DB2 al mainframe, inclosos els fitxers VSAM del mainframe i les fonts de dades heretades de la base de dades, així com les noves fonts de dades. I per això han centralitzat els recursos de dades reutilitzables que es poden cercar, accessibles i a disposició dels seus clients. I realment són capaços d’afegir les noves fonts de dades i donar servei als seus clients molt més ràpidament i eficaç que abans. I les iniciatives d’analítica estan avançant fins i tot més a nivell predictiu. Així que faré una pausa i espero que us sigui útil i si teniu cap pregunta sobre algun dels temes relacionats, si us plau, us convidem.

Eric Kavanagh: És clar, i Tendü, només en faré un. Vaig rebre un comentari d'un membre de l'audiència que deia: "M'agrada" dissenyar-ho una vegada, desplegar-me a qualsevol part ". Vull dir, què heu fet per permetre aquest tipus d’agilitat i hi ha algun impost? Com quan parlem de virtualització, per exemple, sempre hi ha un impost sobre el rendiment. Hi ha qui diu que el dos per cent, el cinc per cent el 10 per cent. Què heu fet per habilitar el disseny una vegada, desplegueu-lo a qualsevol part: com ho feu i hi ha algun impost relacionat amb el rendiment?

Tendü Yogurtçu: Segur, gràcies. No, perquè a diferència d’altres proveïdors realment no generem Hive o Pig o algun altre codi que no sigui propi dels nostres motors. És aquí on les nostres contribucions de codi obert van tenir un paper important, perquè hem estat treballant amb els venedors de Hadoop, Cloudera, Hortonworks i MapR i, a causa de les nostres aportacions de codi obert, el nostre motor funciona actualment com a part del flux., com a part del flux Hadoop, com a part de la Chispa.

El que es tradueix també, tenim aquesta optimització dinàmica. Això va ser el resultat que van aconseguir que els nostres clients tinguessin un dubte amb marcs informàtics. Quan entraven en producció amb algunes de les aplicacions, van tornar, i van dir: "Només estabilitzo el meu clúster de Hadoop, estabilitzo MapReduce YARN Version 2, MapReduce Version 2 i la gent parla que MapReduce està mort, Spark és el següent, i hi ha qui diu que Flink serà el següent, com vaig a afrontar això? ”

I, realment, aquests reptes es van fer tan evidents per nosaltres, que vam invertir en tenir aquesta optimització dinàmica a la qual anomenem execució intel·ligent. En temps d’execució, quan la tasca, quan s’envia aquest pipeline de dades, basat en el clúster, tant si es tracta de Spark, com si es tracta de MapReduce o un servidor autònom de Linux, decidim com executar aquesta tasca, originàriament al nostre motor, com a part d’aquest Flux de dades Hadoop o Spark. No hi ha cap despesa principal perquè tot es fa mitjançant aquesta optimització dinàmica que tenim i tot es fa perquè el nostre motor està tan integrat de forma nativa per les nostres aportacions de codi obert. Això respon a la vostra pregunta?

Eric Kavanagh: Sí, està bé. I vull llançar una pregunta més, i Dez, potser també ens atraurem a tu i a Robin. Acabo de rebre un hilarant comentari d’un dels nostres assistents. Ho llegiré perquè és realment una pena. Ell escriu, "Sembla que a la història de les coses CALENT" - s'aconsegueix? Com ​​IoT - "és que com més s'intenta simplificar" és una cosa realment complexa, sovint no és més senzill fer coses, es subministra més corda per penjar Penseu: consulta de bases de dades, explosió, multi-threading, etc. "Podeu fer algun comentari sobre aquesta paradoxa a què es refereix? Simplicitat versus complexitat, i bàsicament què hi ha realment a sota de les portades?

Tendü Yogurtçu: Segur. Crec que és un punt molt vàlid. Quan simplifiqueu les coses i feu aquestes optimitzacions, en certa manera, algú ha de tenir aquesta complexitat del que ha de passar, oi? Si paralitzeu alguna cosa o si decidiu com executar un treball en particular amb el marc de l'ordinador, és evident que hi ha alguna part de la tasca que s'impulsa tant si es troba al final de l'usuari, com a la codificació del menú o en l'optimització del motor. Hi ha una part d’això, simplificant l’experiència de l’usuari, té un benefici enorme quant a poder aprofitar els conjunts d’habilitats que existeixen a l’empresa.

I podeu mitigar aquesta paradoxa, mitigar aquest repte de "Sí, però no tinc control sobre tot el que passa a la coberta, sota la caputxa d'aquest motor", exposant les coses als usuaris més avançats si. vull tenir aquest tipus de control. Invertint també en alguns dels tipus de coses de servabilitat. Ser capaç d’oferir més metadades operatives, més dades operatives, com en l’exemple que va donar aquest assistent, tant per a una consulta SQL com amb el motor en marxa. Espero que això respongui.

Eric Kavanagh: Sí, això sí. Dez, traieu-lo.

Dez Blanchfield: Realment tinc ganes de conèixer una mica més la vostra petjada en les contribucions de codi obert i el viatge que heu fet de la vostra experiència tradicional i de llarga durada en mainframe i el món propietari i, a continuació, el canvi cap a contribuint al codi obert i com es va produir això. I l’altra cosa que tinc ganes d’entendre és la visió que estàs veient que les empreses, no només els departaments d’informàtica, sinó que les empreses ara estan tenint en compte els centres de dades o els llacs de dades com diuen les persones ara i si veuen aquesta tendència de només un llac de dades consolidat o si estem veient llacs de dades distribuïts i la gent utilitza eines per unir-los?

Tendü Yogurtçu: Segur. Per a la primera, va ser un viatge molt interessant, com a empresa de programari propietària, una de les primeres després d'IBM. Tot i això, de nou, tot va començar amb els nostres clients evangelistes que miraven a Hadoop. Vam tenir companyies de dades com ComScore, van ser un dels primers que van adoptar Hadoop perquè recollien dades digitals a tot el món i no vam poder guardar 90 dies de dades tret que invertissin un dipòsit de dades de deu milions de dòlars en el seu medi ambient. Van començar a mirar Hadoop. Amb això comencem també a mirar Hadoop.

I quan vam prendre una decisió i vam reconèixer que Hadoop realment serà la plataforma de dades del futur, també vam entendre que no podrem tenir una obra en això, una obra amb èxit, tret que nosaltres eren una part de l'ecosistema. I estàvem treballant molt estretament amb venedors de Hadoop, amb Cloudera, Hortonworks, MapR, etc. Vam començar a parlar realment amb ells perquè la col·laboració esdevé molt important per validar el valor que pot aportar un venedor i també ens assegurem que podem anar conjuntament a l’empresa. i oferiu alguna cosa més significatiu. Va requerir un munt de relacions perquè no ens coneixíem els projectes de codi obert d'Apache, tot i que vam tenir un gran suport d'aquests venedors de Hadoop.

Comencem a treballar junts i mirant el centre, com podem aportar valor sense ni tan sols el nostre programari propietari a l’espai. Això era important. No es tracta només de posar algunes API amb què el vostre producte pugui funcionar, sinó que podreu dir que invertiré en això perquè crec que Hadoop serà una plataforma del futur, així que invertint en les fonts que volíem fer. segur que madura i es converteix en empresa preparada. Realment podem habilitar alguns dels casos d’ús que no estaven disponibles abans de les nostres aportacions. Això beneficiarà a tot l’ecosistema i podem desenvolupar aquestes col·laboracions molt de prop.

Va passar molt de temps. Comencem a contribuir el 2011 i el 21 de gener del 2013. Recordo la data perquè es va comprometre la nostra contribució més gran, cosa que significa que ara podem disposar dels nostres productes generalment disponibles., mostren el valor, els socis es converteixen en socis de disseny amb els venedors i amb els compromisos de la comunitat de codi obert. Però va ser molt divertit. Va ser molt gratificant com a empresa formar part d’aquest ecosistema i desenvolupar una gran col·laboració.

La segona pregunta sobre el centre de dades / llac de dades, crec que quan veiem aquestes dades com una implementació del servei en la majoria dels casos, sí, pot ser que es tracti de clústers, físicament simples o diversos clústers, però és més conceptual que convertir-se en un lloc únic. per a totes les dades. Com que en algunes organitzacions veiem grans desplegaments de clústers com a premissa, tanmateix també disposen de clústers, per exemple, al núvol públic perquè algunes de les dades que es recopilen de les seccions en línia es conserven realment al núvol. És capaç de tenir un únic pipeline de dades que realment pugueu aprofitar tots dos i fer-los servir com a centre de dades únic, un llac de dades, esdevé important. Crec que no necessàriament només el lloc físic, sinó que hi hagi aquest centre de dades i aquest llac de dades entre grups, entre geografies i, potser amb premissa i núvol, serà molt crític. Sobretot avançar. Aquest any hem començat a veure cada vegada més desplegaments en núvol. És fantastic. En el primer semestre d'aquest any, hem vist molts desplegaments en núvol.

Eric Kavanagh: Està bé, genial. I Robin, tens alguna pregunta? Sé que només ens queden un parell de minuts.

Robin Bloor: D'acord, em pot fer una pregunta. El primer que m’ha passat és que hi ha hagut molta il·lusió sobre Kafka i a mi m’interessava la vostra opinió sobre Kafka i com us integreu amb la manera en què la gent utilitza Kafka?

Tendü Yogurtçu: Segur. Sí, Kafka s'està convertint en força popular. Entre els nostres clients, veiem que el tipus de capa de transport de dades ha vist que les dades són un autobús, pràcticament. Per exemple, un dels nostres clients realment utilitzava una quantitat de dades que consumeix en aquest Kafka entre diversos, com milers d’usuaris en línia i que poden classificar i fer servir.

De nou, Kafka és un bus de dades per als diferents consumidors d’aquestes dades. Classifiqueu alguns usuaris avançats versus usuaris no tan avançats i feu una cosa diferent avançant en aquest pipeline de dades. Com integrem amb Kafka és bàsicament, el nostre producte DMX-h es converteix en un consumidor de confiança, un consumidor altament eficient i fiable per a Kafka. Es poden llegir les dades i això no és diferent que llegir dades de qualsevol altra font de dades per a nosaltres. Donem als usuaris la capacitat de controlar la finestra ja sigui en funció del temps que tenen o del nombre de missatges que poden consumir des del bus de Kafka. I aleshores també podrem enriquir aquestes dades a mesura que passen els nostres productes i ens les endinsem cap a Kafka. Ho hem provat. L’hem comparat en el lloc del client. També està certificat per Confluent. Treballem estretament amb els nois de Confluent i és molt rendible i fàcil d’utilitzar. Un cop més, hi ha les API que canvien, però no us heu de preocupar, ja que el producte tracta realment una altra font de dades, una font de dades en streaming. És molt divertit treballar amb el nostre producte i Kafka, en realitat.

Robin Bloor: D'acord, tinc una altra pregunta que només és una qüestió general de negocis, però fa temps que conec Syncsort i sempre teniu la reputació i heu lliurat un programari extraordinàriament ràpid per a ETL i el món del mainframe. Es dóna el cas que la majoria de la vostra empresa es transfereixi ara a Hadoop? És el cas que, d’una manera o altra, tinguis un tipus de distribució del teu negoci força dramàtica des del mainframe?

Tendü Yogurtçu: Els nostres productes de mainframe segueixen gestionant el 50 per cent dels fotògrafs a nivell mundial. Així, doncs, tenim una línia de productes mainframe molt forta a més del que estem fent al big data i al final Hadoop. I encara estem en la majoria dels projectes d’optimització o optimització de TI perquè hi ha un extrem que voleu poder introduir les dades del fotograma principal a les plataformes Multex de dades grans i aprofitar totes les dades empresarials, tot i que també hi ha càrregues de treball transaccionals molt importants. que segueix funcionant amb el mainframe i oferim als clients la manera d’efectivitzar les aplicacions realment, funcionen amb el motor zIIP perquè no consumeixin tant cicles de processament ni MIPS, per fer-los rendibles.

Continuem invertint en els productes del mainframe i realment juguem en aquest espai on la gent va del ferro gran del mainframe a les dades grans i estenem la línia de productes també per aquestes plataformes. Així, no necessàriament canviem tot el negoci cap a un costat, continuem tenint negocis amb molt d’èxit per les dues parts. I les adquisicions també són un gran focus per a nosaltres. A mesura que evolucionen aquest espai de gestió de dades i de processament de dades de les plataformes de grans dades, també ens comprometem a fer algunes adquisicions gratuïtes.

Robin Bloor: Bé, suposo que no puc preguntar-vos què són perquè no us podríeu dir. M’interessa saber si realment heu vist moltes implementacions d’Hadoop o Spark en el mainframe o si és una cosa molt rara.

Tendü Yogurtçu: no n’hem vist cap. Hi ha més preguntes al respecte. Crec que Hadoop al mainframe no tenia gaire sentit pel tipus d’estructura central. Tanmateix, Spark on mainframe té un sentit significatiu i Spark és molt bo amb l'aprenentatge de màquines i les analítiques de predicció i poder tenir algunes d'aquestes aplicacions amb dades de mainframe és, segons crec, força significatiu. Encara no hem vist ningú fent això, però és realment aquest cas l'ús que condueix. Si el cas d’ús com a empresa aporta aquestes dades del fotograma principal i s’integra amb la resta de conjunts de dades a la plataforma de dades grans, és una història. Requereix accedir a les dades del mainframe des de la plataforma Multex de dades grans perquè és poc probable que tragueu els conjunts de dades des de sistemes oberts i que el torneu a demanar a mainframe. Tanmateix, si teniu algunes dades del mainframe que només voleu explorar i fer una mica de descobriment d’exploració de dades, apliqueu algunes analitzacions avançades i analítica avançada, Spark pot ser una bona manera d’executar i executar el mainframe així.

Eric Kavanagh: I aquí hi ha una pregunta més del públic, en realitat dues més. Us faré una pregunta sobre l’equip d’etiquetes i, després, us enviarem l’objectiu. Un assistent es pregunta: "IBM integra les vostres contribucions de codi obert en el seu ecosistema de núvols públics, és a dir, el Bluemix?" I un altre assistent va fer un bon punt, destacant que Syncsort és excel·lent per mantenir viu el ferro gran per a aquells que ja ho teniu, però si les empreses renuncien a les principals marques a favor del que ell anomena CE, tot el núvol, això probablement decaigui, però recorda que els vostres no són molt bons a l'hora de moure les dades passant per alt els sistemes operatius fins a un gigabyte per segon. Podeu parlar sobre la vostra força bàsica, tal com va mencionar, i si IBM integra o no les vostres coses en Bluemix?

Tendü Yogurtçu: Amb IBM, ja som socis amb IBM i vam tenir debats sobre els seus serveis al núvol de dades oferint el producte. Les nostres aportacions de codi obert estan obertes a tothom que vulgui aprofitar-les. Alguna part de la connectivitat del mainframe també està disponible en els paquets de Spark, per tant no només en IBM. Qualsevol pot aprofitar-ho. A Bluemix encara no hem fet res específicament al respecte. I us importa repetir la segona pregunta?

Eric Kavanagh: Sí, la segona pregunta era sobre el vostre àmbit fonamental de la funcionalitat al llarg dels anys, que realment era manejar els colls d'ampolla d'ETL i, òbviament, és una cosa que els vostres segueixen fent com a trames principals, bé, teòricament, manteniu-vos lluny, tot i que des de Dez el punt segueix sent un tipus de balanceig i de rodolada. Però l’assistent només va assenyalar que Syncsort és molt bo per moure les dades passant per alt els sistemes operatius i fins a un gigabyte per segon. Pots comentar-ho?

Tendü Yogurtçu: Sí, l'eficiència del recurs en general ha estat la nostra força i l'escalabilitat i el rendiment han estat el nostre punt fort. No estem comprometent, simplificar té molts significats, no els comprometem. Quan la gent va començar a parlar sobre Hadoop el 2014, per exemple, moltes de les organitzacions no miraven realment el rendiment inicialment. Deien: "Oh, si passa alguna cosa, puc afegir un parell de nodes i vaig a estar bé, el rendiment no és el meu requisit".

Si bé parlàvem de tenir el millor rendiment perquè ja estàvem executant de forma nativa, ni tan sols teníem alguns dels singulars inicials que Hive tenia amb diversos treballs i despeses de MapReduce per iniciar-los. La gent ens deia: “Ah, no és la meva preocupació, no us preocupeu per això en aquest moment”.

Quan vam arribar al 2015, el paisatge ha canviat perquè alguns dels nostres clients ja superaven l’emmagatzematge que tenien als seus clústers de producció. Va ser molt crític per a ells veure què pot oferir Syncsort. Si estàs agafant algunes dades d’una base de dades o d’un mainframe i escrivint en un format Parquet als clústers, tant si desembarques com en un escenari i realitzes una altra transformació, o simplement fas la transformació d’Inflight i el format de fitxer d’orientació de destinació, haureu fet una diferència perquè esteu estalviant de emmagatzematge, esteu estalviant de l’ample de banda de la xarxa, estigueu estalviant de la càrrega de treball del clúster perquè no esteu executant treballs addicionals. Sembla que els punts forts que juguem en termes de ser molt conscients, sentim l'eficiència dels recursos sota la nostra pell.

Així ho descrivim. És crític per a nosaltres. No ho donem per fet. Mai no ho vam donar per fet, seguirem sent forts amb aquest palanquejament a Apache Spark o al següent ordinador. Aquest continuarà sent el nostre focus. I pel que fa a la peça de moviment de dades i accés a dades, sens dubte és un dels nostres punts forts i estem accedint a dades de DB2 o VSAM als mainframes en el context d’Hadoop o Spark.

Eric Kavanagh: Bé, és una bona manera d'acabar amb la transmissió web. Moltes gràcies pel vostre temps i atenció. Gràcies a vosaltres, Tendü i Syncsort, per haver entrat a la sala d'informació i trepitjar la ronda, segons diuen. Moltes preguntes magnífiques del públic. És un entorn en constant moviment, persones. Arxivarem aquesta Hot Tech com ho fem amb tots els altres. Ens podeu trobar a insideanalysis.com i a techopedia.com. Normalment puja en aproximadament un dia. I amb això, us acomiadarem, amics. Moltes gràcies. En parlarem aviat. Cuida't. Adeu.

Ferro gran, compliment de dades grans: alliberació de dades de mainframe amb clapa i espurna