Casa Bases de dades El poder del suggeriment: com un catàleg de dades permet als analistes

El poder del suggeriment: com un catàleg de dades permet als analistes

Anonim

Per Techopedia Staff, 22 de juny de 2016

Take away: la host Rebecca Jozwiak discuteix els avantatges dels catàlegs de dades amb Dez Blanchfield, Robin Bloor i David Crawford.

Per veure el vídeo, us heu de registrar en aquest esdeveniment. Registra't per veure el vídeo.

Rebecca Jozwiak: Senyores i senyors, hola i benvinguts a Hot Technologies del 2016. Avui tenim "El poder de la suggestió: com un catàleg de dades potencia els analistes". Sóc la vostra amfitriona Rebecca Jozwiak, que emplica el nostre host habitual d'Eric. Kavanagh avui, mentre viatja pel món, així que gràcies per unir-se a nosaltres. Aquest any fa calor, no fa calor a Texas on sóc, però fa calor a tot arreu. Hi ha una explosió de tot tipus de noves tecnologies. Tenim IoT, dades de transmissió, adopció de núvols, Hadoop continua madurant i adoptant-se. Tenim automatització, aprenentatge automàtic, i tot això és subratllat per dades. I les empreses cada cop són més les dades que impulsen el dia. I, per descomptat, l’objectiu d’aquest és conduir al coneixement i al descobriment i, ja sabeu, prendre millors decisions. Però, per obtenir el màxim valor de les dades, és fàcil arribar-hi. Si el manteniu tancat, enterrat o al cervell d’unes quantes persones dins de l’empresa, no farà gaire bé per a l’empresa en general.

I vaig pensar en la catalogació de dades i en pensar en les biblioteques, fa molt temps que és allà on vas anar si necessitaves trobar alguna cosa, si necessitaves investigar un tema o buscar alguna informació, vas anar a la biblioteca., i, per descomptat, vas anar al catàleg de targetes, o a la senyora de cranc que hi treballava. Però també va ser divertit passejar-hi, si només volguéssiu mirar i segur que podríeu descobrir alguna cosa neta, podríeu esbrinar alguns fets interessants que no sabíeu, però si realment necessitàveu trobar-ne alguna cosa, i ja sabies el que buscaves, necessitava el catàleg de targetes i, per descomptat, l’equivalent empresarial és un catàleg de dades, que pot ajudar a brillar totes les dades perquè els nostres usuaris puguin enriquir, descobrir, compartir, consumir i ajudar realment. la gent arriba a les dades de manera més ràpida i fàcil.

Així, avui tenim Dez Blanchfield, el nostre propi científic de dades, i tenim el doctor Robin Bloor, el nostre propi analista en cap, tenim al David Crawford de Alation, que parlarà de la història de la catalogació de dades de la seva empresa, però primer ens dirigirem amb Dez. Dez, us estic passant la pilota i el pis és vostre.

Dez Blanchfield: Gràcies, gràcies per tenir-me avui. Aquesta és una qüestió que m’interessa molt, perquè gairebé totes les organitzacions que trobo en el meu dia a dia treballo trobo exactament el mateix tema del qual vam parlar molt breument al banter pre-show, i és que la majoria d’organitzacions que porten més de uns anys en el negoci tenen una gran quantitat de dades enterrades al voltant de l’organització, diferents formats, i de fet tinc clients que tenen conjunts de dades que es remunten a Lotus Notes, bases de dades que encara s’executen en algunes. els casos com els seus pseudònims interns i tots ells tenen aquest repte de trobar realment on es troben les seves dades i com accedir-hi, a qui proporcionar-los accés, quan els pot proporcionar accés i com fer-ho catàleg i com es pot arribar a un lloc on tothom pot: A) tenir coneixement del que hi ha i del que hi ha, i B), com accedir-hi i utilitzar-lo. I un dels majors reptes és, evidentment, trobar-lo, l'altre gran repte és saber què hi ha i com accedir-hi.

Potser sé que tinc desenes de bases de dades, però realment no sé què hi ha o com esbrinar què hi ha, i tan invariablement, com ara descobrim les dades pre-exhibició, tendiu. passejar per l'oficina i fer preguntes i cridar a les parets cúbiques i intentar esbrinar, sovint és la meva experiència, fins i tot es pot trobar que vagis a la recepció, a la recepció, i preguntant si algú sap qui aniràs a parlar. Molt sovint, no sempre és l’informàtic perquè no coneixen el conjunt de dades perquè algú l’ha creat, i pot ser una cosa senzilla com a; sovint trobem un projecte que es troba en un entorn informàtic i el responsable del projecte ha utilitzat un full de càlcul de totes les coses i ha obtingut una gran quantitat d’informació valuosa sobre actius, context i noms i, a menys que coneguis aquest projecte i que no coneguis aquesta persona, simplement no la pots trobar. Simplement no està disponible i heu de controlar el fitxer original.

Hi ha una frase que ha estat preocupada pel que fa a les dades i no necessàriament hi estic d’acord, però crec que és una mica desagradable i és que una certa quantitat de persones pensen que les dades són el petroli nou, i jo ho sóc. segur que també ho anirem tractant en algun aspecte, més endavant. Però el que he notat, certament formant part d’aquella transformació, és que les organitzacions d’empreses que han après a valorar les seves dades han obtingut un avantatge important respecte als seus competidors.

Hi va haver un document interessant d’IBM, fa uns cinc o sis anys, i van enquestar a 4.000 empreses aquí a Austràlia, i van agafar tota la informació, totes les dades de rendiment, totes les dades de finançament i la van col·locar en una olla bullent. la van enviar a la Australian School of Economics, i realment van iniciar una tendència comuna aquí, i això va ser que les empreses que van aprofitar la tecnologia van obtenir sempre un avantatge tan competitiu respecte dels seus companys i competidors per si, que els seus competidors gairebé mai no aconsegueixen, i crec. ara passa molt amb les dades que hem vist el que la gent diu una transformació digital en què les organitzacions han descobert clarament com es troben les dades que disposen, que es posen a la seva disposició i que es posin a la venda de forma molt fàcil de consumir. moda a l’organització, sense necessàriament saber sempre per què l’organització pot necessitar-la i obtenir un avantatge significatiu sobre els competidors.

Tinc un parell d’exemples en aquesta diapositiva, que pots veure. La meva única línia és que la gran interrupció a gran escala de gairebé tots els sectors de la indústria, segons el meu parer, està impulsada per les dades i, si les tendències actuals han de passar, només crec que només hem aconseguit va començar perquè quan les marques de llarga durada finalment es despertin del que això significa i entraran al joc, entraran al joc a l’engròs. Quan un dels grans comerciants que tenen muntanyes de dades comença a aplicar alguna anàlisi històrica sobre les dades, si fins i tot saben que existeix, alguns dels jugadors en línia obtindran una trucada de despertar.

Però, amb moltes d’aquestes marques, vull dir que tenim Uber que és l’empresa de taxis més gran del món. No són propietaris de taxis, de manera que és el que els fa màgics, quines són les seves dades? Airbnb, el major proveïdor d’allotjament, tenim WeChat, la companyia de telefonia més gran del món, però no disposen d’infraestructura real, ni de telèfons mòbils ni de línies de telèfon. Alibaba, el major comerciant del planeta, però no són propietaris de cap inventari. Facebook, la major empresa de mitjans de comunicació de la paraula. Crec que a l’últim recompte tenien ara 1.400 milions d’usuaris de dades actives, la qual cosa és un número molest. No està a prop d’altres llocs: crec que algú va afirmar que cada dia hi ha una quarta part del planeta, i aquí hi ha un proveïdor de contingut que realment no crea el contingut, totes les dades que serveixen no són creades per ells. pels seus subscriptors, i tots coneixem aquest model.

SocietyOne, que potser haureu o no escoltat, és una marca local, crec que en un parell de països és un banc que realment fa préstecs entre iguals, per tant, sense dir-ho, no té diners. Tot el que fa és gestionar les transaccions i les dades es troben a sota. Netflix, tots estem molt familiaritzats amb això. Aquí hi ha un lineal interessant. Quan Netflix es va poder utilitzar legalment a Austràlia, quan es va anunciar oficialment, no havíeu d’utilitzar una VPN per accedir-hi, molta gent de tot el món acostuma a fer-ho - si no podeu accedir-hi a la vostra àrea local - quan Netfix es va llançar a Austràlia, va augmentar l’ample de banda internacional en els nostres enllaços d’internet en un 40 per cent, de manera que gairebé va duplicar l’ús d’internet a Austràlia durant la nit, amb només una aplicació, una aplicació allotjada en núvol que no fa res més que jugar amb dades. No és més que una estadística interessant.

I per descomptat, tots coneixem Apple i Google, però aquestes són les empreses de programari més grans del planeta, però no escriuen les aplicacions. Quina és la conseqüència amb totes aquestes organitzacions? Bé, són dades, i no van arribar perquè no sabien on eren les seves dades ni sabien catalogar-les.

El que estem trobant ara és que hi ha tota aquesta nova classe d'actius a què es coneixen dades, i les empreses hi estan despertant. Però no sempre disposen de les eines, el coneixement i el per què per mapar totes aquestes dades, per catalogar totes aquestes dades i posar-les a la seva disposició, però hem trobat que les empreses gairebé sense actius físics han obtingut un alt valor de mercat. temps de registre mitjançant aquesta nova classe d’actius de dades. Com he dit, alguns dels vells jugadors ara estan despertant d'això i, certament, ho aconsegueixen.

Sóc un gran aficionat a fer folk en una mica de viatge, així que en els divuit centenars, a la fi dels divuit centenars, i us coneixereu més que en el mercat dels Estats Units, va resultar que es podia fer un cens. cada any més o menys, crec que les publicaven cada deu anys en aquell moment, però si aneu a fer un cens cada any, podríeu trigar fins a vuit o nou anys a fer realment l’anàlisi de dades. Va resultar que aquell conjunt de dades es va deixar a les caixes dels llocs en paper, i gairebé ningú no el va trobar. Ells simplement continuen enviant aquests informes, però les dades reals eren molt difícils d’arribar, tenim una situació similar amb un altre moment significatiu mundial, cap als anys quaranta, amb la Segona Guerra Mundial, i això és que el parc Bletchley Bombe va escriure BOMBE., i es tractava d'una eina analítica de xiframent massiu de números que passaria per petits conjunts de dades i hi trobaria senyals i s'utilitzava per ajudar a codificar codis a través de l'Enigma.

Aquesta cosa de nou, era essencialment un dispositiu dissenyat, no tant per catalogar, sinó per etiquetar i mapejar dades, i permetre agafar patrons i trobar-lo dins dels conjunts de dades, en aquest cas, trencar codis, trobar claus i frases i trobar. regularment als conjunts de dades, i per això hem estat recorrent aquest tema per trobar coses a les dades i dirigir-nos a la catalogació de dades.

A continuació, es van produir aquestes coses, aquestes masses bastidors de baix cost de màquines, només màquines fora de la prestatgeria. I vam fer algunes coses molt interessants, i una de les coses que vam fer amb elles és que vam construir clústers de molt baix cost que podrien començar a indexar el planeta, i molt famosament aquestes grans marques que han vingut i se n’han anat, però probablement és la casa més habitual de Google. marca de la qual tots hem sentit parlar: s’ha convertit en un veritable veritat i saps que tens èxit quan la teva marca es converteix en verb. Però el que Google ens va ensenyar, sense adonar-nos-en, possiblement en el món empresarial, és que van ser capaços d'indexar tot el planeta a un nivell determinat, i catalogar les dades que hi havia arreu del món i fer-lo disponible de manera molt fàcil, forma adequada en una fórmula una petita línia petita, una pàgina web sense gairebé res, i escriviu la consulta, la trobareu, ja que ja havien rastrejat el planeta, el indexaven i el posaven a la seva disposició fàcilment.

I el que vam notar va ser: “No penseu, no ho fem a les organitzacions. Per què és això? Per què tenim una organització que pot mapar tot el planeta i indexar-la, rastrejar-la i indexar-la i posar-la a la seva disposició, la podem cercar i, a continuació, feu clic a la cosa per anar a buscar-la. no ho heu fet internament? ”Així que ara hi ha moltes d’aquestes petites màquines de màquines a tot el món que ho fan per a les intranets i per trobar coses, però realment només arriben a la idea d’anar més enllà de la web tradicional. pàgina o un servidor de fitxers.

En lloc d’entrar ara en aquesta propera generació de catàleg de dades de moltes maneres, descobrir l’accés a les dades mitjançant notes post-it i converses més ràpides d’aigua no és realment un mètode adequat per al descobriment i la catalogació de dades i, de fet, no ho crec mai. realment va ser. Ja no podem suposar tot aquest repte a les persones que només passen notes, publiquen notes i en parlem. Estem molt i molt més enllà de l’àmbit en què s’ha enfocat aquest enfocament de nova generació per a la catalogació de dades. Hem de posar els braços al seu voltant. Si aquest fos un problema fàcil, ja ho hauríem resolt de moltes maneres abans, però crec que no és un problema fàcil, només indexar i trucar les dades només és una part, saber què hi ha a les dades i construir metadades al voltant del que descobrim i, a continuació, posar-lo a disposició de forma fàcil i consumible, particularment per a autoservei i analítica. No deixa de ser un problema, però moltes parts del trencaclosques en cinc anys estan ben resoltes i disponibles.

Com ja sabem, els humans que catalogem dades són una recepta del fracàs, perquè l’error humà és un dels malsons més grans que tractem en el processament de dades, i parlo regularment d’aquest tema on, segons el meu parer, els humans omplen formularis de paper són probablement el més gran malson. ens ocupem de dades i anàlisis de grans dades, per haver d’arreglar constantment les coses que fan, fins i tot a coses senzilles com les dates i els camps, la gent en un format equivocat.

Però, com he dit, hem vist que els motors de cerca d'Internet indexen el món cada dia, així que ara ens estem donant la idea que es pot fer en conjunts de dades empresarials en el procés de descobriment, i que ara són eines i sistemes. fàcilment disponible a punt d’aprendre avui. Així que el truc, en la meva opinió, és seleccionar les eines adequades, les millors eines per al treball. I de manera més adequada, per trobar-ne la part adequada per ajudar-vos a iniciar aquest camí. I crec que sentirem això sobre avui, però abans de fer-ho, passaré al meu col·legi, Robin Bloor, i escoltaré el seu tema sobre el tema. Robin, us puc passar?

Robin Bloor: Sí, certament que ho pots fer. A veure si funciona, oh sí. D'acord, vinc des d'una altra direcció que Dez realment, però acabaré al mateix lloc. Es tracta de connectar-se a dades, així que només vaig pensar que realment connectaria a dades, punt per punt realment.

Hi ha un fet que les dades estan més fragmentades del que no hi ha hagut mai. El volum de dades està creixent fenomenalment, però de fet, les diferents fonts de dades també creixen a un ritme increïble, i per tant, les dades es fragmenten cada cop més. Però, sobretot, a causa de les aplicacions d’analítica –però no són les úniques aplicacions–, tenim un motiu molt bo per connectar-nos a totes aquestes dades, de manera que estem enganxats en un lloc difícil, ens trobem enganxats a un món de dades fragmentades, i hi ha oportunitats a les dades que Dez l'anomenava, el nou petroli.

Quant a les dades, bé, solia viure en disc girant, ja sigui en sistemes de fitxers o bases de dades. Ara viu en un entorn molt més variat, viu en sistemes d’arxius, però també viu en casos d’Hadoop o fins i tot en instàncies de Spark. Viu en diverses espècies de bases de dades. No fa tant, vam fer una base de dades relacional estandarditzada, ja sabeu que va sortir per la finestra durant els últims cinc anys, perquè cal que hi hagi bases de dades de documents, i cal que hi hagi bases de dades gràfiques, així que ja sabeu, el joc té canviat. Així doncs, va viure al disc de filatura, però ara viu a SSD. L’última quantitat de SSD, sens dubte, l’última unitat SSD surt de Samsung - vint gigabytes, que és enorme. Ara viu en la memòria, en el sentit que la còpia principal de les dades pot ser a la memòria, més que no al disc, no hem fet servir per construir sistemes així; ho fem ara. I viu al núvol. El que significa que pot viure en qualsevol d’aquestes coses, al núvol, no necessàriament sabràs on es troba en un núvol, només tindràs la seva adreça.

Hadoop ha fallat fins ara com a magatzem de dades extensible. Havíem esperat que es convertís en un magatzem de dades extensible a escala, i que només es convertís en un sistema de fitxers per a tot, i així, els arcs de pluja apareixen al cel, bàsicament, i els unicorns ballarien, i no va passar res. La qual cosa significa que acabem amb un problema de transport de dades, i de vegades no hi ha necessitat de transport de dades, però també és una dificultat. Les dades realment tenen gravetat en l'actualitat, un cop heu entrat en els múltiples terabytes de dades, recollint-los i llançant-los al voltant, hi ha causes que apareixen latències a la vostra xarxa o que apareixen a diversos llocs. Si voleu transportar dades al voltant, el temps és un factor. Avui dia, gairebé sempre hi ha uns límits sobre el temps que necessiteu per obtenir una cosa, una dada d’un lloc a un altre. Hi havia abans el que pensàvem com a finestres per lots, quan la màquina era inactiva i, per molt que tinguessis dades, només podies llençar-la i tot funcionaria. Doncs s’ha acabat, vivim en un món molt més real. Per tant, el temps és un factor. Tan aviat com vulgueu moure les dades, de manera que si les dades tenen gravetat, és possible que no pugueu moure-les.

La gestió de les dades és un factor en el sentit que realment heu de gestionar totes aquestes dades, no ho obteniu de forma gratuïta i pot ser necessària la replicació per aconseguir que les dades facin el treball que cal fer, perquè potser no sigui allà on l’heu posat. És possible que no tingui recursos suficients per fer el tractament normal de les dades. Així, les dades es repliquen i les dades es repliquen més del que podríeu imaginar. Crec que algú em va dir fa temps que les dades mitjanes es repliquen almenys dues vegades i mitja. Els ESB o Kafka presenten una opció per al flux de dades, però avui dia requereixen arquitectura. Avui en dia, necessiteu pensar d’una manera o d’una altra, en què significa realment llençar les dades. Per tant, sol ser preferible accedir a les dades on es trobin, sempre que, per descomptat, pugueu obtenir el rendiment que necessiteu quan realment aneu a buscar les dades i això depèn del context. De tota manera és una situació difícil. En termes de consultes de dades, solíem pensar en termes d’SQL, hem arribat realment ara, ja ho sabeu, diferents formes de consultes, SQL sí, però al costat, també consultes gràfiques, Spark només és un exemple de fent gràfics, perquè també hem de fer cerca de text, més que mai, també regexem el tipus de cerques, que són realment complicades les cerques de patrons i la concordança de patrons genuïna, totes aquestes coses actualment es compleixen. I tots són útils perquè aconsegueixen allò que busqueu o poden obtenir el que busqueu.

Els dies actuals de consultes abasten múltiples dades, de manera que no sempre ho feien, i sovint el rendiment és horrorós si ho feu. Així doncs, depèn de les circumstàncies, però la gent espera poder consultar les dades de diverses fonts de dades, de manera que la federació de dades d’un tipus o d’un altre és cada cop més actual. La virtualització de dades, que és una manera diferent de fer-ho, segons el rendiment, també és molt freqüent. Les consultes de dades són en realitat una part d’un procés, no tot el procés. Només val la pena assenyalar que, si realment esteu estudiant el rendiment de les analítiques, les analítiques reals poden trigar molt més que la recopilació de dades, perquè depèn de les circumstàncies, però les consultes de dades són una necessitat absoluta si voleu fer-ne alguna. un tipus d’analítica a diverses fonts de dades, i només cal que realment tingueu capacitats que abasten.

I els catàlegs. Els catàlegs existeixen per una raó, almenys estem dient que, ja ho sabeu, tenim, tenim directoris i tenim esquemes a bases de dades, i tenim cada catàleg i tenim allà on aneu trobareu un lloc i, en realitat, ho fareu. trobeu que hi ha algun tipus de catàleg i que el catàleg global unificat és, òbviament, una bona idea. Però molt poques empreses tenen tal cosa. Recordo que, al miler de l'any, el pànic de dos mil anys, recordo que els comunistes ni tan sols podrien definir quants executables tenien, no m'importaran quantes botigues de dades diferents tenien, i probablement és el cas ara, ja sabeu, que la majoria de les empreses no saben activament en el sentit global, quines dades tenen. Però és cada cop més necessari tenir un catàleg global o, com a mínim, tenir una imatge global del que passa a causa del creixement de les fonts de dades i el creixement continuat de les aplicacions, i és especialment necessari per a les analítiques, perquè també d’una manera, i aquí hi ha altres problemes, com ara el llinatge i problemes amb les dades, i és necessari per a la seguretat, molts aspectes de la governança de les dades, si realment no sabeu quines dades teniu, la idea. que vas a governar, és absurd. Així, doncs, totes les dades es cataloguen d'alguna manera només és un fet. La pregunta és si el catàleg és coherent i, en realitat, què podeu fer amb ell. Així que passaré a Rebecca.

Rebecca Jozwiak: D'acord, gràcies Robin. Al costat tenim David Crawford de Alation, David vaig a avançar i us passo la pilota, i la podeu emportar.

David Crawford: Moltes gràcies. Agraeixo molt que em tinguis en aquest programa. Crec que vaig a començar, així que crec que el meu paper aquí és prendre una mica d’aquesta teoria i veure com s’està aplicant en realitat i els resultats que podem conduir en clients reals i així pugueu veure uns quants a la diapositiva, vull parlar de quins resultats podrem veure en analítics possiblement millores. Així que per motivar la discussió, parlarem de com van arribar-hi. Així que tinc la sort de treballar bastant estretament amb moltes persones realment intel·ligents, aquests clients, i només vull assenyalar alguns que han estat capaços de mesurar, i parlar de com un catàleg de dades ha afectat el seu analista. flux de treball I només per quedar-nos breument al capdavant, crec que una de les coses que veiem canviar, amb els catàlegs de dades en versos de solucions mitjançades anteriors i una de les maneres en què les relacions pensen realment sobre les solucions que ens ajuntem, és partir dels analistes. i treballar enrere. Dit, fem això per permetre la productivitat dels analistes. A diferència del compliment just o, a diferència del simple inventari, estem fent una eina que fa que els analistes siguin més productius.

Així, quan parlo amb un científic de dades de l’empresa de serveis financers Square, hi ha un tipus, Nick, que ens explicava com era el seu, solia trigar diverses hores a trobar el conjunt de dades adequat per iniciar un informe. fes-ho en qüestió de segons fent servir la cerca a la quota de mercat, vam parlar amb el seu CTO que va treure els seus analistes que utilitzaven Square, perdonem-me, estava utilitzant Alation, per saber quins eren, quins beneficis van veure i van reportar un 50. augment de la productivitat per cent, i que, un dels principals minoristes del món, eBay, tenen més de mil persones que fan anàlisis SQL de forma regular i treballo bastant estretament amb Deb Says, qui és el projecte. gestor del seu equip d’eines de dades, i va comprovar que quan els interrogants adopten Alation adopten un catàleg, estan veient el doble de la velocitat d’escriure noves consultes a la base de dades.

Es tracta de resultats reals, es tracta de persones que realment apliquen el catàleg a la seva organització i vull portar-vos a través del que cal per configurar-se. Com s’estableix un catàleg en una empresa, i potser el més important de dir, és que passa molt de forma automàtica, de manera que Dez va parlar de sistemes, aprendre sobre sistemes i això és exactament el que fa un catàleg de dades modern. Per tant, instal·len Alation al seu centre de dades i després el connecten a diverses fonts de metadades del seu entorn de dades. Em centraré una mica en les bases de dades i les eines de BI: de totes dues, extreurem metadades tècniques, bàsicament sobre el que existeix. No, doncs, què taules? Quins informes? Quines són les definicions de l’informe? De manera que extreuen aquests metadades tècniques, i es crea automàticament una pàgina del catàleg per a cada objecte dins d'aquests sistemes i, a continuació, també extreuen i capllen a sobre d'aquestes metadades tècniques, formen una capa a sobre de les dades d'ús. Això es fa sobretot llegint els registres de consulta de la base de dades, i es tracta d’una font d’informació realment interessant. Així doncs, sempre que un analista escrigui una consulta, cada vegada que una eina d’informació, ja sigui de casa, o fora de la prestatgeria, si una eina d’informació executa una consulta per actualitzar el tauler, quan una aplicació executa una consulta per inserir dades per operar a un conjunt de dades: totes aquestes coses es capturen en els registres de consultes de bases de dades. Tant si teniu un catàleg com si no, es capturen al registre de consultes amb la base de dades. El que pot fer un catàleg de dades i, sobretot, el que pot fer el catàleg d’Alation, és llegir aquests registres, fer les consultes dins d’ells i crear un gràfic d’ús realment interessant a partir d’aquests registres, i ho fem en joc per informar els futurs usuaris. de les dades sobre com les han utilitzat els usuaris anteriors de les dades.

Així doncs, ajuntem tot aquest coneixement en un catàleg, i només per fer-ho real, es tracta de les integracions que ja es despleguen als clients, per la qual cosa hem vist Oracle, Teradata, Redshift, Vertica i un munt d’altres. bases de dades relacionals. Al món de Hadoop, hi ha una gran varietat de SQL a Hadoop, una mena de botigues relacionals, meta-stores a la part superior del sistema d’arxius Hadoop, Impala, Tez, Presto i Hive, també hem tingut èxit amb proveïdors privats de Hadoop en núvol com Altiscale, i nosaltres També s'han pogut connectar als servidors de Tableau, servidors MicroStrategy i indexar els taulers, així com integracions amb eines de gràfics de ciències de dades com Plotly.

Així doncs, ens connectem a tots aquests sistemes, hem connectat aquests sistemes a clients, hem introduït les metadades tècniques, hem introduït les dades d’ús i hem ordenat automàticament el catàleg de dades, però d’aquesta manera, nosaltres centralitzar el coneixement, però simplement centralitzar les coses en un catàleg de dades, no proporciona per si mateix aquells increïbles increïments de productivitat dels que parlem amb eBay, Square i quota de mercat. Per fer-ho, és necessari canviar la manera de pensar en el lliurament de coneixement als analistes. Una de les preguntes que es plantegen per preparar-se va ser "Com afecta el catàleg en realitat el flux de treball d'un analista?"

És el que passem tot el dia pensant i, per parlar d’aquest canvi en el pensament, d’un model d’empenta vers un tir, he volgut fer una ràpida analogia al que era el món abans i després de llegir en un Kindle. Així que només és una experiència que alguns podríeu tenir, quan esteu llegint un llibre físic, trobareu una paraula, no esteu segur que coneixeu bé la definició de la paraula, potser ho podreu endevinar des del context, no és probable que us aixecareu al sofà, us dirigireu a la vostra prestatgeria, trobareu el vostre diccionari, traieu-lo pols i torneu al lloc adequat de la llista alfabètica de paraules per assegurar-vos que, sí, teníeu aquesta definició correcta i ja sabeu els matisos d’aquest. Així que no passa realment. Així que compreu una aplicació Kindle i comenceu a llegir llibres allà i veieu una paraula de la qual no esteu del tot segur i la toqueu. Tot sobtat, a la mateixa pantalla, es troba la definició del diccionari de la paraula, amb tots els seus matisos, diferents usos d’exemple, i feu lliscar una mica, i rebeu un article de Wikipedia sobre aquest tema, feu lliscar de nou, teniu una eina de traducció que la pugueu traduir a altres idiomes o a altres idiomes i, de sobte, el vostre coneixement de l'idioma és molt més ric, i només passa una sorprenent quantitat de vegades en comparació amb quan havíeu d'anar i treu aquest recurs per tu mateix.

I el que discutiré és que el flux de treball per a un analista i la manera en què un analista tractarà la documentació de dades, en realitat és molt similar a com interactuarà un lector amb el diccionari, ja sigui físic, o bé si el Kindle, i el que nosaltres, la manera que realment vam veure aquest impuls de productivitat, no és vessar el catàleg, sinó connectar-lo al flux de treball de l'analista i, per tant, em van demanar que faci una demostració aquí i vull que sigui el focus d'aquesta presentació. Però només vull configurar el context de la demostració. Quan pensem a impulsar el coneixement de les dades als usuaris quan ho necessiten, pensem que el lloc adequat per fer-ho, el lloc on passen el temps i on fan l'anàlisi és una eina de consulta SQL. Un lloc on escriviu i executeu consultes SQL. I així, en vam construir una, i la vam crear, i el que realment és diferent d’altres eines de consulta és la seva integració profunda amb el catàleg de dades.

Per tant, la nostra eina de consulta es diu Alation Compose. És una eina de consulta basada en web i us la mostraré en un segon. Una eina de consulta basada en web que funciona en tots els logotips de bases de dades que heu vist a la diapositiva anterior. El que vaig a intentar demostrar en particular és la manera en què la informació del catàleg arriba als usuaris. I ho fa mitjançant aquest tipus de tres maneres diferents. Ho fa mitjançant intervencions i és allà on algú que és un governador de dades, un administrador de dades o un administrador d'alguna manera, o un gestor, pot dir: "Vull ordenar la interjecció amb una nota o un avís a el flux de treball i assegureu-vos que es lliura als usuaris en el moment adequat. ”Així que es tracta d’una intervenció i així ho demostrem.

Els suggeriments intel·ligents són una forma en què l’eina utilitza tot el seu coneixement agregat del catàleg per suggerir objectes i parts d’una consulta a mesura que s’escriu. El més important a saber és que realment s’aprofita el registre de consultes per fer-ho, per suggerir coses basades en l’ús i també per trobar parts incloses de consultes que s’han escrit abans. I això ho demostrem.

I després les previsualitzacions. Les previsualitzacions són que, mentre escriviu el nom d’un objecte, us mostrem tot el que el catàleg sap, o almenys les coses més rellevants que el catàleg sap sobre aquest objecte. De manera que les mostres de les dades, que l’havies utilitzat abans, el nom i la descripció lògica d’aquest objecte, et presenten mentre escrius sense haver d’anar a demanar-ho.

Així, sense més parlar, arribaré a la demostració i només vaig a esperar que aparegui. El que us mostraré aquí és l’eina de consulta. És una interfície d’escriptura SQL dedicada. És una interfície separada del catàleg, en un cert sentit. Dez i Robin van parlar sobre el catàleg i estic saltant una mica sobre la interfície del catàleg directament sobre com s’introdueix directament al servei del flux de treball.

Acabo mostrant aquí un lloc on puc escriure SQL, i a la part inferior veuràs que apareixem informació sobre els objectes als quals fem referència. Així que només començaré a escriure una consulta i m’aturaré quan arribi a una d’aquestes intervencions. Així que escric "seleccionar" i vull l'any. Vull el nom. I vaig a buscar algunes dades salarials. Es tracta, doncs, d’un conjunt de dades sobre educació. Té informació sobre les institucions d’educació superior i estic buscant el salari mitjà dels professors que hi ha en una d’aquestes taules.

De manera que he escrit la paraula "sou". No es troba exactament al nom de la columna d'aquesta manera. Utilitzem tant metadades lògiques com metadades físiques per fer suggeriments. I el que vull destacar aquí és aquest quadre groc que apareix aquí. Diu que hi ha un avís en aquesta columna. No vaig anar a la recerca d'això, no vaig prendre una classe sobre com utilitzar aquestes dades correctament. Em va arribar, i es tracta d’una advertència sobre un acord de confidencialitat que té a veure amb aquestes dades. Així doncs, hi ha algunes regles de divulgació. Si vaig a consultar aquestes dades, vaig a treure dades d’aquesta taula, hauria d’estar atent a la manera de divulgar-les. Així que aquí teniu una política de governança. Hi ha alguns reptes de compliment que fan que sigui més fàcil complir aquesta política quan en tinc coneixement d’aquestes dades.

Així que tinc aquest aspecte, i també vaig a estudiar la matrícula. I aquí veiem que les previsualitzacions entren en joc. Veig que a la columna de matrícules hi veig: hi ha una columna de matrícules a la taula de la institució i en veig un perfil. Alation va i treu dades de mostra de les taules i, en aquest cas, em mostra una cosa força interessant. M’està mostrant la distribució dels valors i em mostra que el valor zero apareix 45 vegades a la mostra i més que qualsevol altre valor. Així doncs, tinc cert sentit que potser ens falten algunes dades.

Si sóc analista avançat, pot ser que ja formi part del meu flux de treball. Sobretot si sóc particularment minuciós, on faria un munt de consultes de perfil abans del temps. Sempre que m’apropo a una nova dada, sempre penso en quina és la nostra cobertura de dades. Però si sóc nou en l'anàlisi de dades, si sóc nou en aquest conjunt de dades, podria suposar que, si hi ha una columna, s'omple tot el temps. O podria suposar que si no s’emplena, no és zero, és nul o alguna cosa així. Però en aquest cas, tenim molts zero, i si fes una mitjana, probablement s’equivocarien, si només assumís que aquests zero eren realment nuls en lloc de faltar dades.

Però Alation, aportant aquesta previsualització al vostre flux de treball, us demana que feu una ullada a aquesta informació i ofereixen fins i tot a una espècie d’analistes novells la possibilitat de veure que hi ha alguna cosa a notar aquí sobre aquestes dades. Així doncs, tenim aquesta vista prèvia.

El següent que faré és intentar esbrinar de quines taules obté aquesta informació. Així que aquí veiem els suggeriments intel·ligents. Ha passat tot el temps, però, en concret, aquí, ni tan sols he escrit, però em suggerirà quines taules potser voldria utilitzar per a aquesta consulta. I el més important a saber d’això és que s’aprofiten les estadístiques d’ús. Així, en un entorn com, per exemple, eBay, on teniu centenars de milers de taules en una sola base de dades, teniu una eina que pot colpejar el blat del chaff i fer servir aquestes estadístiques d’ús, és realment important per aconseguir aquestes suggeriments que val la pena alguna cosa.

Així que us suggerirà aquesta taula. Quan miro la vista prèvia, realment destaquem tres de les columnes que he esmentat ja a la consulta. Així que sé que en té tres, però no té el nom. Necessito obtenir el nom, així que vaig a fer unió. Quan faig una unió, torno a tenir aquestes previsualitzacions per ajudar-me a trobar, on es troba la taula amb el nom. Per tant, veig que aquest té un nom molt bé formatat amb majúscules. Sembla que tingui una fila amb un nom per a cada institució, així que vaig a agafar-ho, i ara necessito la condició d’unió.

I així, aquí el que fa Alation és tornar a mirar enrere els registres de consultes, veient les vegades anteriors que s’han unit aquestes dues taules i suggerir maneres diferents per unir-les. Una vegada més, hi ha alguna intervenció. Si considero un d'aquests, em ve un avís que em demostra que això només s'ha d'utilitzar per a anàlisis agregades. Probablement produirà el mal si es tracta de fer alguna cosa a través de la institució per institució. Mentre que aquesta, amb la identificació OPE s’accepta com la forma adequada d’unir aquestes dues taules si voleu dades a nivell universitari. Així que ho faig, i és una consulta breu, però he escrit la meva consulta sense necessàriament tenir coneixement de què són les dades. En realitat mai he mirat un diagrama d’ER d’aquest conjunt de dades, però ja sé bastant d’aquestes dades ja que m’arriba la informació rellevant.

Es tracta, doncs, de les tres maneres que un catàleg pot, mitjançant una eina de consulta integrada, afectar directament el flux de treball a mesura que escriviu les consultes. Però un dels altres avantatges de tenir una eina de consulta integrada en un catàleg és que, quan acabo la consulta i em deso, puc posar un títol com “Matrícula d’institució i salari de la facultat” i, a continuació, tinc un botó aquí que em permet publicar-lo al catàleg. Per mi és molt fàcil alimentar-ho. Tot i que no el publico, s'està captant com a part del registre de consultes, però, quan el publico, es converteix en part de la forma en què es viu el lloc centralitzat on viuen tots els coneixements de dades.

Per tant, si faig clic a Cerca de totes les consultes a Alation, em prendré (i aquí veuràs una mica més de la interfície del catàleg), em dirigeixo a una cerca de consulta dedicada que em mostra una manera de trobar consultes a través de tota l’organització. I veieu que la meva consulta recentment publicada és al capdamunt. I alguns podríem notar aquí quan, a mesura que captem les consultes, també capturem els autors, establim aquesta relació entre jo com a autor i aquests objectes de dades del que ara sé. I estic establert com a expert en aquesta consulta i en aquests objectes de dades. Això és de gran ajuda quan la gent necessita aprendre sobre les dades i pot trobar la persona adequada per conèixer-la. I si realment sóc una nova informació, tant si sóc un analista avançat, com a analista avançat, podria mirar-ho i veure una sèrie d’exemples que m’iniciarien en un nou conjunt de dades. Com a algú que pot no sentir-se molt experimentat amb SQL, puc trobar consultes fetes prèviament que són informes que puc aprofitar.

Aquí teniu un de Phil Mazanett sobre les puntuacions mitjanes del SAT. Feu clic en això i obtinc una mena de pàgina de catàleg per a la consulta en si. Es parla d’un article que es va escriure que fa referència a aquesta consulta, de manera que hi ha una documentació que he de llegir si vull aprendre a utilitzar-la. A més, puc obrir-lo a l'eina de consulta fent clic al botó Redacta i només puc executar-ho jo fins i tot sense editar-lo. I, en realitat, podeu veure una mica de les nostres capacitats d'informació lleugera, on, quan escriviu una consulta, podeu deixar anar una variable de plantilla com aquesta i crear una manera senzilla de crear un formulari per executar una consulta basada en. en un parell de paràmetres.

Així doncs, això és el que tinc per a la demostració. Vaig a tornar a les diapositives. Només per a recaptar, vam mostrar com un administrador, un governador de dades, pot intervenir posant avisos sobre objectes que es mostren a l'eina de consulta, com Alation utilitza el seu coneixement de l'ús d'objectes de dades per fer suggeriments intel·ligents, com aporta a la perfilació i altres consells per millorar els fluxos de treball dels analistes quan toquen objectes concrets, i com tot aquest tipus d’informació torna al catàleg quan s’escriuen les noves consultes.

Evidentment, sóc portaveu en nom de l'empresa. Vaig a dir coses bones sobre catàlegs de dades. Si voleu escoltar directament un dels nostres clients, Kristie Allen a Safeway dirigeix ​​un equip d’analistes i té una història fantàstica sobre un moment en què necessitava superar el rellotge per poder realitzar un experiment de màrqueting i com és el seu conjunt. l'equip va utilitzar Alation per col·laborar i donar-li una volta molt ràpida en aquest projecte. Així que podeu seguir aquest enllaç bit.ly per comprovar aquesta història o si voleu escoltar una mica sobre com Alation podria aportar un catàleg de dades a la vostra organització, estarem encantats de configurar una demostració personalitzada. Moltes gràcies.

Rebecca Jozwiak: Moltes gràcies, David. Estic segur que Dez i Robin tenen algunes preguntes abans de dirigir-me a les preguntes de resposta i audiència. Dez, vols anar primer?

Dez Blanchfield: Absolutament. M'encanta la idea d'aquest concepte de consultes publicades i enllaçar-lo amb la font de l'autor. He estat un campió llarg de temps d’aquesta idea d’una botiga d’aplicacions a casa i crec que es tracta d’un fonament realment fantàstic.

Vaig obtenir una mica de coneixement d’algunes de les organitzacions que esteu veient fent això i d’algunes de les històries d’èxit que podrien haver tingut amb tot aquest viatge, no només per aprofitar la vostra eina i plataforma per descobrir les dades, sinó A continuació, transformen els seus trets culturals i de comportament interns. Ara, té aquest tipus de botiga d'aplicacions integrades a casa on es poden descarregar, el concepte on no només poden trobar-lo, sinó que poden començar a desenvolupar petites comunitats amb els que mantenen aquest coneixement.

David Crawford: Sí, crec que ens hem sorprès. Creiem en el valor de compartir consultes, tant del meu passat com a product manager de Adtech com de tots els clients amb els que hem parlat, però encara m’ha sorprès la freqüència amb què és una de les primeres coses que els clients Parlem de com és el valor que treuen de l'Alation.

Feia proves de l'usuari de l'eina de consulta a un dels nostres clients anomenat Invoice2go i tenien un gestor de productes relativament nou, i em van dir: en realitat em va dir que no es va promoure durant la prova de l'usuari: "En realitat no ho faria estar escrivint SQL del tot, tret que Alation sigui fàcil. ”I, per descomptat, com a primer ministre, vull dir:" Què vols dir, com ho vam fer? "I va dir:" Bé, realment només és perquè puc iniciar la sessió i puc veure totes aquestes consultes existents. ”Començar amb una pissarra en blanc amb SQL és una cosa increïblement difícil de fer, però modificar una consulta existent on es pugui veure el resultat que ja està disponible i es pot dir, "Oh, només necessito aquesta columna addicional", o "necessito filtrar-la per a un rang de dates determinat", és una cosa molt més fàcil de fer.

Hem vist tipus d’aquests rols auxiliars, com ara els gestors de productes, potser persones en operacions de vendes, que comencen a recollir, i que sempre han volgut aprendre SQL i començar a recollir-lo mitjançant aquest catàleg. També hem vist que moltes empreses han intentat fer tipus de codi obert. He intentat construir aquest tipus de coses internament, on fan un seguiment de les consultes i posen a la seva disposició, i hi ha algun tipus de desafiaments complicats en el disseny perquè siguin útils. Facebook ha tingut una eina interna que van anomenar HiPal que va capturar totes les consultes escrites a Hive, però el que trobeu és que si no feu cap tipus d'anegament als usuaris de la manera correcta, acabareu amb un llarga llista de declaracions selectes. I com a usuari que està intentant esbrinar si una consulta m'és útil o si és alguna cosa bona, si només visito una llarga llista de declaracions selectes, em durà molt més temps per obtenir alguna cosa de valor que a partir de zero. Hem pensat amb molta cura en com fer un catàleg de consultes que aporti les coses adequades al front i que es proporcionin de manera útil.

Dez Blanchfield: Crec que tots fem aquest viatge des de ben petits, fins a l'edat adulta, de moltes maneres. Un munt de tecnologies. Jo, personalment jo mateix, he passat per la mateixa cosa genuïna, com ara aprendre a tallar codi. Passaria per revistes i després per llibres i estudiaria fins a un cert nivell, i després vaig necessitar anar i obtenir una mica més de formació i formació.

Però, inadvertidament, em vaig trobar que, fins i tot quan anava d’ensenyar-me a mi mateixa i llegir revistes i llegir llibres i picar programes d’altres persones i anar a cursos sobre ell, encara vaig acabar aprenent tant de fer els cursos com de només parlar amb altres. gent que va tenir algunes experiències. I crec que és un descobriment interessant que, ara que ho porteu a les analítiques de dades, bàsicament estem veient el mateix paral·lel, que els éssers humans són sempre molt intel·ligents.

L’altra cosa que realment tinc ganes d’entendre és que, a un nivell molt alt, moltes organitzacions es preguntaran: “Quant temps triguen a arribar a aquest punt?” Quin és el punt d’incloure en el marc de temps quan la gent arriba s'ha instal·lat la teva plataforma i han començat a descobrir els tipus d'eines? La rapidesa amb què la gent només veu aquesta cosa es converteix en un moment “immediat” immediat, on s’adonen que ni tan sols es preocupen pel ROI perquè hi és, però ara canvien la manera de fer negocis. ? I han descobert un art perdut i esperen que puguin fer alguna cosa realment divertit amb ell.

David Crawford: Sí, puc tocar-ho una mica. Crec que quan ens instal·lem, una de les coses més agradables, una de les coses que a la gent li agrada sobre un catàleg que està connectat directament als sistemes de dades, és que no comenceu en blanc on cal emplenar-lo. pàgina per pàgina. I això és cert sobre les solucions de dades anteriors, on començaríeu amb una eina buida i haureu de començar a crear una pàgina per a tot el que vulgueu documentar.

Com que documentem tantes coses automàticament mitjançant l'extracció de metadades, fonamentalment en pocs dies després de tenir instal·lat el programari, podeu tenir una imatge del vostre entorn de dades que hi hagi almenys un 80 per cent a l'eina. Aleshores penso que tan bon punt la gent comenci a escriure les consultes amb l'eina, es guarden automàticament al catàleg i, per tant, començaran a aparèixer.

No vull estar massa desitjós en afirmar-ho. Crec que dues setmanes són una estimació conservadora força bona, d’un mes. Dues setmanes al mes, es fa una estimació conservadora de donar-li voltes i sentir com si treus valor, com si comences a compartir algun coneixement i poder anar-hi i trobar coses sobre les teves dades.

Dez Blanchfield: És realment sorprenent quan ho penseu. El fet que algunes de les grans plataformes de dades que indexeu i catalogeu efectivament trigaran fins a l'any a implementar-les i a desplegar-les i a plantar-les correctament.

L’última pregunta que us he plantejat abans de lliurar-ho a Robin Bloor, és els connectors. Una de les coses que em salta de seguida és evidentment que teniu tot un repte resolt. Així que hi ha un parell de preguntes realment ràpides. Una, amb quina rapidesa s’implementen els connectors? Evidentment, comenceu amb la plataforma més gran, com els Oracles i les Teradatas, etcètera i els DB2. Però, amb quina freqüència veieu que passen nous connectors, i quin temps de tornada passen? Imagino que teniu un marc estàndard per a ells. I quina profunditat hi endinses? Per exemple, els Oracles i les IBM del món, i fins i tot Tereadata, i després alguns dels més populars de les plataformes de codi obert tardà. Treballen directament amb tu? Ho esteu descobrint vosaltres mateixos? Heu de tenir coneixement propi en aquestes plataformes?

Com sembla que es desenvolupi un connector, i quina profunditat t'interessa en aquestes associacions per assegurar-vos que aquests connectors estan descobrint tot allò que possiblement podeu?

David Crawford: Sí, segur, és una gran pregunta. Crec que, en la seva majoria, podem desenvolupar els connectors. Sens dubte, quan érem una empresa jove i no teníem clients. Podem desenvolupar les connexions certament sense necessitat d’accés intern. Mai aconseguim cap accés especial als sistemes de dades que no estiguin disponibles públicament, i sovint sense necessitat de cap informació interior. Aprofitem els serveis de metadades disponibles pels propis sistemes de dades. Sovint, aquestes poden ser força complexes i difícils de treballar. Conec en particular el servidor de SQL, la forma en què gestionen el registre de consultes, hi ha diverses configuracions diferents i és quelcom que realment ha de treballar. Heu d’entendre els matisos, els poms i marcar-los per configurar-lo correctament, i això és el que treballem amb els clients des que ho hem fet diverses vegades abans.

Però, fins a cert punt, és una mena d’API públiques disponibles o d’interfícies públiques disponibles que aprofitem. Tenim col·laboracions amb diverses d’aquestes empreses, que són principalment motius de certificació, de manera que se sentin còmodes dient que treballem i també ens poden proporcionar recursos per fer proves, de vegades pot tenir un accés precoç a una plataforma que surt per assegurar-se que treballem en les noves versions.

Per donar la volta a una nova connexió, diria, intentant ser conservador, diguem-ne de sis setmanes a dos mesos. Depèn de lo semblant que sigui. Així, alguns aspectes del Postgre semblen molt similars als de Redshift. Redshift i Vertica comparteixen gran part dels seus detalls. Així, podem aprofitar aquestes coses. Però sí, de sis setmanes a dos mesos seria just.

També tenim API, de manera que pensem en Alation com una plataforma de metadades, de manera que si no hi ha res disponible per contactar-nos i agafar-ho automàticament, hi ha maneres de poder escriure el connector tu mateix i fer-lo anar al nostre sistema. que tot es centralitza en un sol motor de cerca.

Dez Blanchfield: Fantàstic. Sóc conscient que. De manera que anirem a lliurar-lo a Robin, perquè estic segur que també té una gran quantitat de preguntes. Robin?

Rebecca Jozwiak: Robin pot estar en silenci.

Dez Blanchfield: T'has quedat silenciat.

Robin Bloor: Sí, no. Ho sento, em vaig silenciar. Quan implementeu això, quin és el procés? Sóc curiós perquè hi ha moltes dades a molts llocs. Com funciona això?

David Crawford: Sí, segur. Entrem, primer és un procés informàtic per assegurar-nos que el nostre servidor està subministrat, assegurant-nos que les connexions de xarxa estan disponibles, que els ports estan oberts perquè puguem accedir als sistemes. Tots sovint saben amb quins sistemes volen començar. Saber dins d’un sistema de dades, que - i de vegades realment els ajudarem. Els ajudarem a anar a fer un primer cop d’ull al seu registre de consultes per comprendre qui fa servir què i quants usuaris tenen en un sistema. Així doncs, ajudarem a esbrinar on sovint, si tenen centenars o milers de persones que podrien iniciar la sessió en bases de dades, en realitat no saben on s’inicien la sessió, així que podem obtenir informació sobre el els registres de consulta quants comptes d’usuari únics teniu realment per iniciar la sessió i executar consultes aquí en un mes o més.

Així doncs, podem aprofitar-ho, però sovint només sobre els més importants. Els posem en marxa i després hi ha un procés de dir: "Prioritzem". Hi ha una sèrie d'activitats que poden tenir-se en paral·lel. M'enfocaria en la formació per utilitzar l'eina de consulta. Una vegada que les persones comencen a utilitzar l'eina de consulta, en primer lloc, a molta gent li agrada el fet que es tracti d'una sola interfície per a tots els seus diferents sistemes. També els agrada que es basa en la web, no impliqui instal·lacions si no volen. Des d’un punt de vista de seguretat, els agrada tenir un tipus d’entrada únic, des d’un punt de vista de la xarxa, entre un tipus de xarxa informàtica corporal i el centre de dades on viuen les fonts de dades de producció. Per tant, configuraran Alation com a eina de consulta i començaran a utilitzar Compose com a punt d'accés per a tots aquests sistemes.

De manera que, una vegada que això passi, el que ens centrem en la formació és comprendre quines són algunes de les diferències entre una eina de consulta basada en web o una de servidors enfront d’una que tindríeu al vostre escriptori i alguns dels matisos d’ús. això. Al mateix temps, el que intentarem és identificar les dades més valuoses, aprofitant de nou la informació del registre de consultes i dient: “Hola, potser voldreu entrar i ajudar la gent a comprendre-les. Comencem a publicar consultes representatives en aquestes taules. ”De vegades és la forma més eficaç d’aconseguir que la gent s’acosti ràpidament. Mirem el vostre propi historial de consultes, publiquem aquestes coses perquè es mostrin com a primeres consultes. Quan la gent mira una pàgina de la taula, pot veure totes les consultes que han tocat la taula i poden començar a partir d’aquí. A continuació, comencem a afegir títols i descripcions a aquests objectes de manera que siguin més fàcils de trobar i cercar, de manera que coneguis alguns dels matisos de com utilitzar-lo.

Ens assegurem que ens fixem en el registre de consultes per tal de generar el llinatge. Una de les coses que fem és mirar el registre de consultes en els moments en què les dades es mouen d’una taula a una altra, i això ens permet plantejar una de les preguntes més freqüents sobre una taula de dades és, d’on surt? Com puc confiar? Llavors, el que podem mostrar no és només de quines altres taules prové, sinó de com es va transformar al llarg del camí. Un cop més, aquest tipus és alimentat pel registre de consultes.

Així doncs, ens assegurem que aquestes coses estan configurades i que estem incorporant el seu llinatge al sistema, i ens orientem a les peces de metadades més valuoses i més aprofitats que podem establir a les pàgines de la taula. quan cerqueu, trobeu alguna cosa útil.

Robin Bloor: D'acord. L'altra pregunta: hi ha moltes preguntes del públic, així que no vull ocupar-me gaire del temps aquí. L'altra qüestió que em ve al cap és que només són els punts de dolor. S'han comprat molts programes perquè la gent té, d'una manera o altra, problemes amb alguna cosa. Quin és el punt de dolor més comú que porta a la gent a Alation?

David Crawford: Sí. Crec que n’hi ha uns quants, però crec que un dels que escoltem bastant sovint és analista a bord. "Hauré de contractar a 10, 20 i 30 persones a un termini pròxim que hauran de produir noves visions a partir d'aquestes dades. Com es faran arribar a la velocitat?" Així que els analistes a bord són alguna cosa que sens dubte abordar. A més, només cal alleugerir els analistes sencers de passar tot el temps donant resposta a preguntes d'altres persones sobre dades. També és molt freqüent. Ambdós són essencialment problemes d’educació.

Aleshores, diria que un altre lloc que veiem que la gent adopta Alation és quan volen configurar un entorn de dades totalment nou per a què algú treballi. Volen anunciar-lo i comercialitzar-lo internament perquè s’aprofiti la gent. Aleshores, convertir Alation en l'avantguarda d'aquest nou entorn analític és molt atractiu. Té la documentació, té un punt d’introducció únic al mateix - un punt d’accés únic als sistemes i, per tant, és un altre lloc on ens acudirà la gent.

Robin Bloor: D'acord, us transmetré a Rebecca perquè el públic intenta acostar-vos a vosaltres.

Rebecca Jozwiak: Sí, aquí tenim moltes preguntes realment bones. I David, aquest us va plantejar específicament. És algú que aparentment té alguna experiència amb persones com a males consultes i diu que com més donem poder als usuaris, més difícil és governar un ús responsable dels recursos de càlcul. Llavors, podeu defensar-vos de la propagació de frases de consulta equivocades, però comunes?

David Crawford: Sí, veig aquesta pregunta. És una gran pregunta: una que rebem amb freqüència. Jo mateix he vist el dolor a empreses anteriors, on heu de formar usuaris. Per exemple, "Aquesta és una taula de registre, té registres enrere durant anys. Si voleu escriure una consulta en aquesta taula, realment heu de limitar-les per data. ”Així, per exemple, es tracta d’una formació que vaig fer en una empresa anterior abans de rebre l’accés a la base de dades.

Tenim un parell de maneres que intentem abordar això. Diria que crec que les dades del registre de consultes són realment valuoses per abordar-les. Proporciona una altra visió respecte al que fa la base de dades internament amb el seu planificador de consultes. I el que fem és una d’aquestes intervencions: tenim les intervencions manuals que vaig mostrar, i això és útil, no? Així, per exemple, en una determinada unió, podeu dir "Depenem això". Tindrà una bandera vermella gran quan aparegui en el suggeriment intel·ligent. Així doncs, aquesta és una manera d’intentar arribar a la gent.

Una altra cosa que fem és automatitzar-les en les intervencions en temps d'execució. En realitat farem servir l’arbre analitzador de la consulta abans d’executar-lo per veure-ho, inclourà un filtre determinat o un parell d’altres coses que fem allà també. Però un dels més valuosos i el més senzill d’explicar és, inclou un filtre? Així, com l’exemple que acabo de donar, aquesta taula de registre, si voleu consultar-la, ha de tenir un interval de dates, podeu especificar a la pàgina de la taula que hi disposeu que cal aplicar el filtre d’interval de dates. Si algú intenta executar una consulta que no inclou aquest filtre, realment les detindrà amb un gran avís i dirà: "Probablement hauríeu d'afegir una SQL que sembli a la consulta". Poden continuar si ells volen. En realitat no varem prohibir-ne l'ús, sinó que també és una consulta, al final del dia s'haurà de fer consultes. Però posem una barrera força gran al davant i els donem un suggeriment, un suggeriment concret aplicable per modificar la consulta per millorar el seu rendiment.

En realitat també ho fem automàticament, en alguns casos, observant el registre de consultes. Si veiem que un percentatge realment gran de consultes d’aquesta taula aprofiten un filtre concret o una clàusula d’adhesió concreta, en realitat apareixerà. Potenciarem això a una intervenció. De fet, em va passar en un conjunt de dades intern. Tenim dades de client i tenim identificadors d’usuari, però el conjunt d’identificació d’usuari, ja que és una mena de: tenim identificadors d’usuari a cada client. No és únic, per la qual cosa heu de sincronitzar-lo amb un identificador de client per obtenir una clau d’unió única. I vaig estar escrivint una consulta i vaig intentar analitzar alguna cosa i va aparèixer i vaig dir: “Hola, sembla que tots els altres s’uneixin a aquestes taules tant amb l’ID de client com amb l’ID d’usuari. Esteu segur que no voleu fer-ho? I, realment, em va impedir fer anàlisis incorrectes. De manera que funciona tant per la precisió de l’anàlisi com pel rendiment. Així, doncs, és el tipus de manera com afrontem aquest problema.

Rebecca Jozwiak: Em sembla efectiu. Heu dit que no necessàriament impedireu que la gent obstrueixi recursos, sinó que els heu d'ensenyar que el que fan no pot ser el millor, oi?

David Crawford: Sempre suposem que els usuaris no són malintencionats, donant-los la millor intenció, i procurem ser força oberts d'aquesta manera.

Rebecca Jozwiak: D'acord. Aquí hi ha una altra pregunta: “Quina diferència hi ha entre el gestor de catàlegs, com passa amb la vostra solució i una eina MDM? O, en realitat, es basa en un principal principal ampliant l’elecció de les taules de consulta, mentre que MDM ho faria automàticament, però amb el mateix principal subjacent a la recopilació de metadades. "

David Crawford: Sí, crec que quan analitzo les solucions tradicionals de MDM, la diferència principal és filosòfica. Es tracta de qui és l’usuari. Alation que vaig dir al començament de la meva presentació, Alation, crec que, quan vam ser fundats, vam ser fundats amb l’objectiu de permetre als analistes produir més visions, produir-les més de pressa, ser més precisos en els coneixements que produir No crec que mai hagi estat l’objectiu d’una solució MDM tradicional. Aquestes solucions solen orientar-se a persones que necessiten produir informes sobre les dades que han estat capturades al SCC o internament amb algun altre tipus de finalitat d’auditoria. De vegades pot habilitar analistes, però és més freqüent que, si va a habilitar un professional en el seu treball, és més probable que habiliti un arquitecte de dades com un DBA.

Quan es pensa en coses des del punt de vista d’un analista, és quan es comença a crear una eina de consulta que una eina MDM mai faria. És aleshores quan comences a pensar en el rendiment i a la precisió, a més d’entendre quines dades es relacionen amb les meves necessitats empresarials. Totes aquestes coses són coses que semblen pop a la nostra ment quan dissenyem l'eina. Aprofita en els nostres algorismes de cerca, s’endinsa en la disposició de les pàgines del catàleg i la capacitat d’aportar coneixements de tota l’organització. S'entén en el fet que hem creat l'eina de consulta i que hem incorporat el catàleg directament, de manera que crec que realment prové. Quin usuari teniu en compte primer?

Rebecca Jozwiak: D'acord, bé. Això va ajudar realment a explicar-ho. que moria de fer-se amb els arxius perquè havia de marxar, però realment volia que la seva pregunta fos contestada. Va dir que es va esmentar al començament que hi ha diversos idiomes, però és SQL l'únic llenguatge emprat en el component Compose?

David Crawford: Sí, és cert. I una de les coses que he notat, ja que vaig presenciar l'explosió dels diferents tipus de bases de dades, de bases de dades de documents, de bases de dades gràfiques, de botigues de valor clau, és que són realment potents per a desenvolupar aplicacions. Poden cobrir necessitats particulars allà realment, de maneres millors del que les bases de dades relacionals poden.

Però, quan la torneu a analitzar les dades, quan la torneu a proporcionar - quan voleu proporcionar aquesta informació a les persones que van a fer informes ad hoc o a l’excavació ad hoc a les dades, sempre tornen a tenir una relació Si més no, interfície per als humans. En part, només perquè SQL és la lingua franca de l’anàlisi de dades, de manera que, per als humans, també ho és per a les eines que s’integren. Crec que aquesta és la raó per la qual SQL on Hadoop és tan popular i hi ha tants intents de solucionar-ho, perquè al final del dia això és el que la gent sap. Probablement hi ha milions de persones que saben escriure SQL i no m’atreveixo a milions que no sàpiguen escriure una consulta del marc de la canalització d’agregació Mongo. I és que és un llenguatge estàndard que s’utilitza per a la integració en una gran varietat de plataformes. Tot i això, rarament ens demana que sortim fora perquè aquesta és la interfície que utilitzen la majoria dels analistes i és un lloc on ens hem centrat, sobretot a Compose, que ens hem centrat a escriure SQL.

Diria que la ciència de dades és el lloc on s’aventuren més fora i, per tant, fem preguntes puntuals sobre l’ús de Pig o SAS. Es tracta de coses que definitivament no tractem a Compose i que voldríem plasmar al catàleg. I també veig R i Python. Tenim un parell de maneres en què hem creat interfícies que podeu utilitzar les consultes escrites en Alation dins dels scripts R i Python, així que, ja que sovint quan sou científic de dades i treballes en un llenguatge de script, el vostre les dades d'origen es troben en una base de dades relacional. Comenceu amb una consulta SQL i després la processeu i creeu gràfics dins de R i Python. I hem creat paquets que podeu importar a les seqüències de comandes que tiren les consultes o els resultats de la consulta d'Alation perquè pugueu tenir-hi un flux de treball barrejat.

Rebecca Jozwiak: D'acord, genial. Sé que hem passat una mica més amunt de l’hora, només em plantejaré una o dues preguntes més. Sé que heu parlat de tots els diferents sistemes als quals podeu connectar-vos, però, quant a dades allotjades externament i dades allotjades internament, es poden cercar junts a la vostra vista única, a la vostra plataforma?

David Crawford: Segur. Hi ha algunes maneres de fer-ho. Vull dir, allotjat externament, m’imagino, estic intentant pensar exactament què pot suposar això. Podria significar una base de dades que algú allotja en AWS per a vostè. Podria significar una font de dades pública de data.gov. Ens connectem directament a bases de dades mitjançant la sessió de sessió igual que una altra aplicació amb, amb un compte de bases de dades, i així és com extreurem les metadades. Així que si tenim un compte i tenim un port de xarxa obert, podem accedir-hi. Aleshores, quan no tenim aquestes coses, tenim una cosa que es diu font de dades virtual, que us permet impulsar fonamentalment la documentació, ja sigui automàticament, escrivint el vostre propi connector o bé emplenant-ho fent com una càrrega CSV, per documentar les dades al costat de les vostres dades internes. Tot això s'introdueix al motor de cerca. Es converteix en referència als articles i altra documentació i converses al sistema. Així és com gestionem quan no podem connectar-nos directament a un sistema.

Rebecca Jozwiak: D'acord, això té sentit. Simplement et faré una pregunta més. Un assistent és preguntant: "Com s’ha de validar, verificar o mantenir el contingut d’un catàleg de dades, a mesura que s’actualitzen les dades de la font, a mesura que es modifiquen les dades d’origen, etc."

David Crawford: Sí, és una pregunta que tenim molt, i crec que una de les coses que nosaltres, una de les nostres filosofies, com vaig dir, no creiem que els usuaris siguin malintencionats. Assumim que estan intentant aportar el millor coneixement. No entraran i enganyaran deliberadament la gent sobre les dades. Si és un problema a la vostra organització, potser Alation no és l'eina adequada per a vosaltres. Però, si assumiu bones intencions dels usuaris, pensem en això com en alguna cosa, en què arriben les actualitzacions, i normalment el que fem és posar un administrador a càrrec de cada objecte de dades o de cada secció de les dades. I podem avisar a aquests administradors quan es facin canvis al metadat i que puguin gestionar-lo d'aquesta manera. Veuen que hi ha actualitzacions, les validen. Si no tenen raó, poden retrocedir-les i modificar-les i informar-les, i, esperem, fins i tot, arribar a l’usuari que ha aportat la informació i que l’ajudés a aprendre.

Així doncs, aquesta és la manera principal que pensem fer-ho. Aquest tipus de suggeriments per part de la gent i de la direcció dels administradors, de manera que tenim algunes capacitats al respecte.

Rebecca Jozwiak: D'acord, bé. I si només poguéssiu informar els usuaris de com es poden iniciar millor amb Alation, i on poden anar específicament per obtenir més informació. Sé que ho has compartit una mica. És el millor lloc?

David Crawford: Alation.com/learnmore crec que és un bon camí per recórrer. Per inscriure’t a una demostració, el lloc d’Alation.com té molts recursos fantàstics, llibres blancs dels clients i notícies sobre la nostra solució. Així que crec que és un lloc ideal per començar. També podeu enviar correu electrònic.

Rebecca Jozwiak: D'acord, genial. I ho sé, assistents, perdó si no he arribat a totes les preguntes d’avui, però si no, seran reenviades a David o al seu equip de vendes o a algú a Alation, de manera que poden ajudar a respondre les vostres preguntes i ajudaran a comprendre què fan Alation o què fan millor.

I amb això, gent, us avançaré i ens signaré. Sempre podeu trobar els arxius a InsideAnalysis.com. També la podeu trobar a Techopedia.com. Solen actualitzar-se una mica més ràpidament, així que definitivament comproveu-ho. I moltes gràcies a David Crawford, Dez Blanchfield i Robin Boor avui. Ha estat una transmissió web fantàstica. I amb això, t’acomiadaré. Gràcies, amics. Adeu.

David Crawford: Gràcies.

El poder del suggeriment: com un catàleg de dades permet als analistes