Кућа Базе података Моћ сугестије: како каталог података омогућава аналитичарима

Моћ сугестије: како каталог података омогућава аналитичарима

Anonim

Аутор особља Тецхопедиа, 22. јуна 2016

Извлачење: Домаћин Ребецца Јозвиак разговара о предностима каталога података са Дез Бланцхфиелд-ом, Робин Блоор-ом и Давидом Цравфордом.

Морате се регистровати за овај догађај да бисте погледали видео. Региструјте се да бисте видели видео.

Ребецца Јозвиак: Даме и господо, здраво и добродошли у Хот Тецхнологиес 2016. Данас имамо "Моћ сугестије: како каталог података омогућава аналитичарима." Каванагх данас, док путује светом, зато вам хвала што сте нам се придружили. Ове године је вруће, није само вруће у Тексасу где сам, већ је вруће свуда. Излази експлозија свих врста нових технологија. Имамо ИоТ, стреаминг података, усвајање облака, Хадооп и даље сазрева и усваја се. Имамо аутоматизацију, машинско учење и све ове ствари су, наравно, подвучене подацима. А предузећа из дана у дан постају све више података. И наравно, поанта тога је да доведете до знања и открића и, знате, доносите боље одлуке. Али да бисте заиста добили највише вредности од података, мора се лако доћи до њих. Ако је држите закључану или закопану или у мозгу неколицине људи унутар предузећа, то неће учинити много добра за предузеће у целини.

И некако сам размишљао о каталогизацији података и размишљао о наравно библиотекама, где сте одавно ишли ако сте требали нешто да пронађете, ако сте требали да истражите неку тему или потражите неке информације, отишли ​​сте у библиотеку и, наравно, отишли ​​сте у каталог карата, или лукава дама која је тамо радила. Али такође је било забавно лутати наоколо, ако сте само желели да погледате и сигурни да ћете открити нешто уредно, можда ћете сазнати неке занимљиве чињенице које нисте знали, али ако заиста требате да пронађете нешто и знали сте шта тражите, потребан вам је каталог картица, и наравно, еквивалент предузећа је каталог података, који може помоћи да засветли све податке како би се наши корисници обогатили, открили, делили, потрошили и заиста помогли људи брже и лакше долазе до података.

Дакле, данас имамо Дез Бланцхфиелд-а, нашег научника за податке, и имамо доктора Робина Блоор-а, нашег главног аналитичара, имамо Давида Цравфорда из Алатион-а, који ће говорити о причи о каталогизацији података своје компаније, али прво водићемо са Дез. Дез, преносим ти лопту, а под је твој.

Дез Бланцхфиелд: Хвала, хвала што сте ме данас примили . Ово је питање које ме изузетно занима, јер скоро свака организација на коју наилазим у свом свакодневном раду налазим потпуно исти проблем о којем смо врло кратко говорили у наступу пред наступе, и то је то већина организација које послују више од неколико година имају мноштво података сахрањених око организације, различитих формата, а у ствари имам клијенте који имају скупове података који се враћају у Лотус Нотес, базе података које и даље раде у неким случајеви као њихов псеудо интернетс, и сви се они суочавају са овим изазовом да заправо пронађу где су њихови подаци и како да им се приступи, ко да им приступи, када да им се омогући и како и како каталога и како га доћи до места где свако може: А) бити свестан шта има и шта се налази у њему и Б), како доћи до њега и користити га. И један од највећих изазова је наравно проналазак, а други велики изазов је знати шта је ту и како приступити томе.

Можда знам да имам на десетине база података, али заправо не знам шта се тамо налази или како да откријем шта је унутра, и тако неизбежно као што то откривамо у пре-схов подацима, шетати канцеларијом и постављати питања, викати преко кубичних зидова и покушати да схватите, често је моје искуство, можда ћете наћи да лутате пред рецепцијом, рецепцијом и питате да ли неко зна ко идете да разговарате. Често то није увек ИТ народ, јер они нису свесни скупа података, јер их је неко управо створио, а могло би бити и нешто једноставно - врло често ћемо наћи пројекат неке врсте који стоји у ИТ окружењу и руководилац пројекта користио је прорачунску табелу о свим стварима, а добио је огромну количину драгоцених информација око имовине и контекста и имена, а уколико не знате тај пројекат и познајете ту особу, те информације једноставно не можете пронаћи. Једноставно није доступан и морате добити ту оригиналну датотеку.

Постоји фраза која се око података прелама и с тим се не слажем нужно, али мислим да је то мало слатко одбацивање и то је да одређена количина људи мисли да су подаци ново уље, а ја сигурно ћемо то покрити и у неком аспекту, касније данас. Али оно што сам приметио, сигурно учествујући у тој трансформацији, је да су организације предузећа које су научиле да цене своје податке стекле значајну предност у односу на своје конкуренте.

Пред око пет или шест година ИБМ је објавио занимљив чланак, а они су истражили око 4.000 компанија овде у Аустралији и узели су све информације, све податке о перформансама, све податке о финансијама и ставили их у лонац за кључање послали су је у Аустралијску економску школу и они су овде започели заједнички тренд, а то је да су компаније које су користиле технологију увек имале такву конкурентску предност у односу на своје вршњаке и конкуренте као такве да их конкуренти готово никада не дођу у корак, и мислим да то је врло случај сада са подацима да смо видели како људи називају дигиталну трансформацију где организације које су јасно смислиле како да пронађу податке које имају, како би те податке учиниле доступним и учиниле доступнима у врло лако потрошном мода у организацију, без нужног знања зашто је организацији то потребно, и стицања значајне предности у односу на конкуренте.

Имам неколико примера на овом слајду, који можете видети. Моја једина поставка је да по мојем мишљењу велики поремећаји у готово свим индустријским секторима полазе од података, и ако постоје било какви трендови, мој поглед је да смо тек стварно постигли започето јер када се дугогодишњи брендови коначно пробуде шта то значи и уђу у игру, они ће ући у игру на велико. Кад неки од главних трговаца који имају планине података почну да користе неку историјску анализу података, ако чак и знају да постоје, онда ће неки онлине играчи добити мало будног позива.

Али са многим од већине ових брендова, мислим да имамо Убера који је највећа такси компанија на свету. Немају такси возила, па шта их чини чаробним, који су њихови подаци? Аирбнб, највећи пружатељ смјештаја, имамо ВеЦхат, највећу телефонску компанију на свијету, али они немају стварну инфраструктуру, нити мобилне телефоне, нити телефонске линије. Алибаба, највећи трговац на планети, али не поседује ниједан инвентар. Фацебоок, највећа медијска компанија. Мислим да су, на крају, имали 1, 4 милијарде активних корисника података, што је невероватно. То није нигде у близини - мислим да је неко тврдио да је четвртина планете заправо тамо сваки дан, а ипак је овде добављач садржаја који заправо не ствара садржај, сви подаци које послужују не стварају они, већ их стварају од њихових претплатника, а сви знамо овај модел.

СоциетиОне, за који сте можда или нисте чули, то је локални бренд, мислим да у неколико земаља то је банка која уствари врши равноправно кредитирање, дакле другим речима, нема новца. Све што ради је да управља трансакцијама и подаци стоје испод њих. Нетфлик, сви смо јако, врло добро упознати с тим. Овде је занимљив један брод. Када је Нетфлик легално могао да се користи у Аустралији, када је и званично објављено, није вам требало да користите ВПН да бисте стигли до њега, многи људи широм света имају тенденцију - ако не можете да стигнете до њега у вашем локалном крају - када је Нетфик представљен у Аустралији, повећао је међународни опсег на нашим интернетским везама за 40 посто, тако да је скоро удвостручио употребу интернета у Аустралији преко ноћи, и то само једном апликацијом, једном апликацијом која се налази у облаку и која не ради само осим података. То је само запањујућа статистика.

И наравно, сви смо упознати с Апплеом и Гооглеом, али ово су највеће софтверске компаније на планети, али оне заправо не пишу апликације. Шта је то са свим тим организацијама? Па, то су подаци, а они нису стигли тамо јер нису знали где су њихови подаци и нису знали како да их каталогизирају.

Оно што сада налазимо је да постоји читава ова нова класа имовине која се назива и подаци, а компаније се пробуде из ње. Али они немају увек алат и знање и зашто да све те податке пресликају, каталогизирају све те податке и учине их доступним, али открили смо да компаније са готово никаквом физичком имовином нису стекле високу тржишну вредност у евидентирати вријеме путем ове нове класе средстава података. Као што сам рекао, неки од старих играча се сада буди због тога и сигурно то износе.

Велики сам обожаватељ да на мало путовање узмем народ, па се у осамнаест стотина, касних осамнаест стотина, и ви ћете бити више него упознати с тим на америчком тржишту, испоставило да је то спровести попис становништва сваке године или тако некако, мислим да су их тада радили сваких десет година, али ако ћете сваке године спроводити попис, могло би вам требати и до осам или девет година да заправо урадите анализу података. Показало се да је тај скуп података остављен у кутијама на местима у папиру, а да га готово нико није могао пронаћи. Само су непрестано пумпали ове извештаје, али стварне податке је било тешко добити, имамо сличну ситуацију са другим светским важним тренутком, око 40-тих, током Другог светског рата, а та ствар је Бемцхлеи Парк Бомбе написана БОМБЕ, а то је био масиван аналитички алат за дробљење броја који би пролазио кроз мале скупове података и проналазио сигнале у њему и био кориштен за помоћ у пробијању кодова кроз Енигму.

Ова ствар је опет била у основи дизајниран уређај, не много за каталогизирање, већ за означавање и мапирање података и омогућавање узимања образаца и проналажење унутар скупова података, у овом случају пробијање кодова, проналазак кључева и фраза и проналазак редовно их налазимо у скуповима података, и тако смо прошли кроз ово путовање у проналажењу ствари и вођењу ка каталогизацији података.

А онда су се појавиле ове ствари, ове огромне нискобуџетне сталке са машинама, само од стројева без полица. И направили смо неколико врло занимљивих ствари, а једна од ствари коју смо урадили с њима је да смо изградили гроздове с ниским трошковима који би могли да започну индексирање планете, и врло познати ови велики брендови који су долазили и одлазили, али вероватно је Гоогле најчешћи дом марка за коју смо сви чули - постала је стварни глагол, а знате да сте успешни када ваш бренд постане глагол. Али оно што нас је Гоогле научио, а да тога нису схватили, можда ни у пословном свету, јесте да су могли индексирати целу планету до одређеног нивоа и каталогизирати податке који су широм света и учинити их доступним на врло једноставан начин, погодан облик у малој једноличној формули, веб страница са готово ничим на себи, а ви упишете свој упит, иде и проналази га јер су већ прелистали планету, индексирали и учинили лако доступним.

И оно што смо приметили је: „Па, остани, не радимо то у организацијама - зашто је то тако? Зашто имамо организацију која може да пресликава целокупну планету и индексира, индексира и индексира, и ставља на располагање, можемо да је претражимо, а затим кликнемо на ствар да је пронађемо, како то да дођемо то нису интерно урадили? "Дакле, данас постоји много ових малих машина по свету које то раде за интранете и проналазе ствари, али још увек се само суочавају са идејом да надиђу традиционални Интернет страницу или сервер датотека.

Уместо да у ову каталог података унесемо следећу генерацију података на много начина, откривање приступа подацима путем белешки после и разговора са воденим хладњаком више није примерена метода за откривање и каталогизирање података, а у ствари, мислим да то никада није било заиста био. Не можемо више да водимо читав овај изазов до људи који само бележе, објављују белешке и разговарају о њима. Сада смо добро и заиста изван подручја где је дошао и нестао овај приступ следећег рода каталогизацији података. Морамо га загрлити. Да је ово био једноставан проблем, већ смо га на много начина већ раније решили, али мислим да то није лако питање, само индексирање и позивање података само је један део тога, знајући шта има у подацима и изградња метаподатака око онога што откријемо, а затим стављање на располагање у једноставном, потрошном облику, посебно за самопослуживање и аналитику. И даље се проблем решава, али многи делови слагалице за пет година су добро и заиста решени и доступни.

Као што знамо, људи који каталогизирају податке рецепт су за неуспех, јер је људска грешка једна од највећих ноћних мора са којом се бавимо приликом обраде података, а ја редовно говорим о овој теми где, по мом мишљењу, људи испуњавају папирне обрасце вероватно су највећа ноћна мора бавимо се великим подацима и аналитиком, тако да стално морамо поправљати ствари које раде, чак и до једноставних ствари попут датума и поља, а људи то постављају у погрешном формату.

Али као што сам рекао, виђали смо интернет претраживаче да индексирају свет сваки дан, па сада доводимо до идеје да се то може урадити на пословним скуповима података у процесу откривања, а алати и системи су сада лако доступни као што ћете данас научити. Дакле, трик је, према мом мишљењу, одабир правих алата, најбољих алата за посао. И прикладније поврх тога, проналажење правог дела који ће вам помоћи да кренете низ тај пут. И верујем да ћемо данас чути о томе, али пре него што то учинимо, прећи ћу на мој факултет, Робин Блоор и чути његов став о овој теми. Робин, могу ли вам пренијети?

Робин Блоор: Да, свакако можеш. Да видимо да ли ово ради, о да, да. Добро, долазим из другог правца него Дез, али завршићу на истом месту. Овдје се ради о повезивању с подацима, па сам само помислио да ћу проћи кроз стварност повезивања података, заиста по тачку.

Постоји чињеница да су подаци фрагментирани него икада до сада. Количина података расте феноменално, али у ствари различити извори података такође расту невероватном брзином, па стога подаци постају све више фрагментирани. Али због аналитичких апликација посебно - али то нису једине апликације - имамо заиста добар разлог за повезивање са свим тим подацима, па смо заглавили на тешком месту, заглавили смо у свету фрагментираних података, а у подацима постоји прилика како га је Дез звао, ново уље.

О подацима је некада живело на врти диск, било у датотечним системима или базама података. Сада живи у много разноврснијем окружењу, живи у датотечним системима, али данас живи и у Хадооп инстанцама, или чак Спарк случајевима. Живи у више врста база података. Не тако давно, стандардизирали смо неку релацијску базу података, па знате да је то прошло кроз прозор у протеклих пет година, јер постоји потреба за базама података, а постоји потреба и за базама података графикона, тако да знате, игра има промењено. Тако је живео на врти диску, али сада живи и на ССД-у. Најновија количина ССД-а - дефинитивно најновија ССД јединица излази из Самсунга - двадесет гигабајта, што је огромно. Сада живи у меморији, у смислу да главна копија података може бити у меморији, а не на диску, а ми нисмо користили такве системе; ми сада. И живи у облаку. Што значи да може да живи у било којој од ових ствари, у облаку, нећете нужно знати где се налази у облаку, само ћете имати његову адресу.

Само што је брже решио дом, Хадооп до сада није успео као проширива продавница података. Надали смо се да ће то постати проширива магацина података, и да ће то једноставно постати један систем датотека за све, и то би било - у основи ће се небо појавити на небу, а једнорог ће плесати наоколо, а ништа од тога се није догодило. Што значи да наилазимо на проблем преноса података, а понекад није потребан транспорт података, али је такође и потешкоћа. Подаци данас заиста имају гравитацију, једном када уђете у мулти-терабајт података, скупљате их и бацате, на неки начин узрокују појаве латенција на вашој мрежи или на разним местима. Ако желите да преносите податке около, време је фактор. Данас готово увек постоје ограничења у томе колико времена имате да бисте добили једну ствар, један податак из једног места на друго место. Некада је постојало оно што смо мислили као серијске прозоре, када је машина била у празном ходу, и без обзира колико података имали, једноставно бисте је могли бацити около и све ће успети. Па то је нестало, живимо у много више свету у стварном времену. Стога је тајминг фактор. Чим желите да преместите податке, па ако подаци имају гравитацију, вероватно их не можете да померате.

Управљање подацима је фактор у смислу да ви заправо морате да управљате свим тим подацима, не добијате их бесплатно, а копирање ће можда бити потребно да бисте заиста добили податке да би могли обавити посао који треба да ураде, јер можда неће бити где год га ставите. Можда нема довољно ресурса да би се извршила нормална обрада података. Тако се подаци реплицирају, а подаци се реплицирају више него што бисте замислили. Мислим да ми је неко давно рекао да се просечан податак реплицира најмање два и по пута. ЕСБ или Кафка представљају опцију за проток података, али данас то захтева архитектура. Данас заиста треба да размишљате на овај или онај начин, о томе шта заправо значи бацати податке. Стога је приступ подацима где су они обично пожељнији, све док, наравно, можете добити перформансе које су вам потребне када заправо тражите податке, а то зависи од контекста. Дакле, ионако је тешка ситуација. У погледу података о упитима, некада смо могли размишљати у смислу СКЛ-а, стварно смо дошли до сада, знате, различитих облика упита, СКЛ да, али суседни, такође граф упити, Спарк је само један пример радећи граф, јер такође морамо претражити текст, више него икада раније, такође извршити поновну израду врста претраживања, што је заиста компликовано тражење образаца, и стварно подударање узорака, све ове ствари се заправо искључују. И сви су они корисни јер вам дају оно што тражите, или вам могу пружити оно што тражите.

Питања се данас састоје од више података, тако да то није увек радило, а често је и изведба ужасна ако то учините. Дакле, то зависи од околности, али људи очекују да ће моћи да претражују податке из више извора података, па федерација података једне или друге врсте постаје све актуелнија. Виртуелизација података, што је различит начин да се уради, зависно од перформанси, је такође веома честа. Упити за податке су заправо дио неког процеса, а не цијели процес. Вриједно је нагласити да ако стварно гледате перформансе аналитике, стварна аналитика може трајати много дуже од прикупљања података, јер то зависи од околности, али упити података су апсолутна неопходност ако желите да учините било шта врста аналитике на више извора података, и заправо, заиста морате имати могућности које обухватају.

Па о каталозима. Каталози постоје с разлогом, бар ми кажемо да, знате, то је, имамо директоријуме, и имамо схеме у базама података, и имамо сваки каталог и имамо где год да одете наћи ћете једно мјесто и тада ћете заправо откријте да постоји нека врста каталога, а обједињени глобални каталог је тако очигледно добра идеја. Али врло мало компанија има тако нешто. Сјећам се, давне двије хиљаде - двије хиљаде година панике - сећам се да комунисти нису могли да утврде колико извршних датотека имају, нема везе колико различитих складишта података су имали, и вероватно је то случај сада, знате, да већина компанија у глобалном смислу активно не зна које податке има. Али очигледно је све више потребно имати глобални каталог или барем глобалну слику о ономе што се догађа због раста извора података и сталног раста апликација, а то је посебно неопходно за аналитику, јер такође на један начин постоје и други проблеми попут рода и проблема са подацима, а то је неопходно због сигурности, многих аспеката управљања подацима, ако заиста не знате које податке имате, идеја да ћете ви управљати то је апсурдно. Дакле, у томе су сви подаци на неки начин каталогизирани само чињеница. Питање је да ли је каталог кохерентан и шта заправо можете учинити с њим. Тако да ћу се вратити у Ребеку.

Ребецца Јозвиак: У реду, хвала Робин. Следеће имамо Давида Цравфорда из Алатион-а, Давид, идем даље и предаћу ти лопту, а ти можеш да је однесеш.

Давид Цравфорд: Пуно хвала. Стварно цијеним вас момци што сте ме имали на овој представи. Мислим да ћу ово започети, тако да мислим да је моја улога овде да узмем мало те теорије и видим како се она заправо примењује, као и резултате које можемо да покренемо код стварних купаца и тако да видите неколико на дијапозитиву, желим да разговарам о томе које ћемо резултате моћи да видимо у аналитичким евентуалним побољшањима. Да бисмо мотивирали дискусију, разговараћемо о томе како су тамо стигли. Тако да имам срећу да прилично тесно сарађујем са много заиста паметних људи, ових купаца, и желим само да истакнем неколико оних који су стварно могли да мере, и разговарамо о томе како је каталог података утицао на њиховог аналитичара Процес рада. И само да накратко останем на челу, мислим да је једна од ствари које видимо да се мењају, уз стихове у каталозима података, претходна посредована решења и један од начина на који односи заиста размишљају о решењима која смо саставили, почетак од аналитичара и раде уназад. Да кажемо, направимо ово да омогућимо продуктивност аналитичара. За разлику од праведног поштовања прописа или за разлику од тога да имамо залиху, ми правимо алат који аналитичаре чини продуктивнијим.

Дакле, када разговарам са научником података у компанији за финансијске услуге Скуаре, тамо је момак, Ницк, који нам је говорио о томе како му је требало неколико сати да пронађе прави сет података да покрене извештај, а сада може учините то у неколико секунди користећи претрагу тржишног удела, разговарали смо са њиховим ЦТО који је повукао његове аналитичаре који су користили Скуаре, извините, користио је Алатион, да сазнају шта су им, какве су користи видели, и пријавили су 50 повећање продуктивности и да, еБаи, један од најбољих светских продаваца на свету, има преко хиљаду људи који редовно раде СКЛ анализу, а ја прилично блиско сарађујем са Деб Саисом, ко је пројекат менаџера у свом тиму алата за податке, и открила је да када керири усвоје Алатион, усвоје каталог, примете двоструко бржу брзину писања нових упита против базе података.

То су стварни резултати, то су људи који каталог заправо примјењују у својој организацији, и желим да вас водим кроз оно што је потребно да бисте се поставили. Како се каталог успоставља у компанији, а можда је и најважније рећи је да се пуно тога догоди аутоматски, па је Дез разговарао о системима, учио о системима и управо то чини савремени каталог података. Тако да они инсталирају Алатион у свој центар података, а затим га повезују са различитим изворима метаподатака у свом податковном окружењу. Мало ћу се фокусирати на базе података и БИ алате - из њих ћемо извући техничке метаподате, у основи о ономе што постоји. Па, па који столови? Шта извештава? Које су дефиниције извештаја? Дакле, они издвајају те техничке метаподате и аутоматски се креира страница каталога за сваки објект унутар тих система, а затим они екстрахирају и слоју поврх тих техничких метаподатака, они прекривају податке о употреби. То се превасходно ради читањем евиденција упита из базе података, а ово је заиста занимљив извор информација. Дакле, кад год аналитичар напише упит, кад год алат за извештавање, било да је узгајан код куће, или ван полица, да ли алат за извештавање води упит ради ажурирања контролне табле, када апликација покрене упит за уметање података на којима ради скуп података - све те ствари се снимају у записима упита базе података. Без обзира да ли имате каталог или не, они се биљеже у евиденцију упита с базом података. Оно што каталог података може урадити, а нарочито шта може урадити Алатион-ов каталог, је читање тих записа, постављање упита унутар њих и креирање заиста занимљивог графикона употребе на основу тих записника, а ми то уводимо у игру како бисмо информисали будуће кориснике података о томе како су их прошли корисници података користили.

Дакле, све то знање објединимо у каталог, и само да бисмо то остварили, ово су интеграције које су већ примењене код купаца, тако да смо видели Орацле, Терадата, Редсхифт, Вертицу и гомилу других релацијске базе података. У свету Хадооп, постоји низ СКЛ-а на Хадооп-у, врста релацијских, мета трговина на врху Хадооп датотечног система, Импала, Тез, Престо и Хиве, а видели смо и успех код облачних Хадооп приватних провајдера попут Алтисцале-а, и ми такође су били у могућности да се повежу на Таблеау сервере, МицроСтратеги сервере и индексирају надзорне табле тамо, као и интеграције са алаткама за графички приказ научних података као што је Плотли.

Дакле, повезујемо се са свим тим системима, повезали смо те системе са купцима, увукли смо техничке метаподате, увукли податке о употреби и некако аутоматски преправили каталог података, али на тај начин централизовати знање, али само централизирање ствари у каталогу података, само по себи не пружа оне заиста дивне повећане продуктивности о којима смо разговарали са еБаиом, Тргом и удјелом на тржишту. Да бисмо то постигли, ми заправо морамо да променимо начин на који размишљамо о пружању знања аналитичарима. Једно од питања које постављају да се припреме за то било је „Како каталог заправо утиче на ток аналитичара?“

То је оно о чему проводимо читав дан размишљајући, а да бисмо разговарали о овој промени у размишљању, о пусх стиховима који је повучени модел, желео сам да направим кратку аналогију са светом пре и после читања на Киндле. Дакле, то је само искуство које неко од вас може имати, док читате физичку књигу, наиђете на неку реч, нисте сигурни да знате дефиницију те речи супер, можете је претпоставити из контекста, а не вероватно да ћете устаћете са кауча, одшетајте до полице с књигама, пронађите свој речник, запрашите га и одлетите на право место у абецедном списку речи да бисте били сигурни да, да, имали сте тачно дефиницију, и знате нијансе тога. Дакле, то се заиста не догађа. Тако да купујете Киндле апликацију и тамо почнете да читате књиге и видите реч за коју нисте сасвим сигурни и додирнете је. Одједном, тачно на том истом екрану, је дефиниција речи у речнику, са свим њеним нијансама, различитим примерима коришћења, и мало превучете прстом и добијете чланак из Википедије о тој теми, поново прелазите прстом, добијате алат за превођење који га можете превести на друге језике или са других језика, а одједном вам је знање језика толико богатије, и оно се догоди запањујуће више пута, у поређењу са временом када сте морали да идете и повуци тај ресурс за себе.

И тако, оно што ћу тврдити је да је ток рада аналитичара и начин на који ће аналитичар радити са документацијом података заправо сличан начину на који ће читач комуницирати са рјечником, било да је физички или иако је Киндле, и тако оно што ми, начин на који смо стварно видели ово повећање продуктивности, није просипање каталога, већ га повезивање са радним током аналитичара, и тако, они су од мене тражили да направим демонстрацију, и ја желим да би то био фокус ове презентације. Али само желим да поставим контекст за демо. Када размишљамо о потицању знања о подацима када су им потребни, мислимо да је право место за то, место где проводе своје време и где раде анализе, алат СКЛ упита. Место где пишете и покрећете СКЛ упите. Тако смо направили један и изградили га, а оно што се у њему заиста разликује од осталих алата за упите је његова дубока интеграција са каталогом података.

Дакле, наш алат за упит зове се Алатион Цомпосе. То је веб-алат за упите и показаћу вам га у секунди. Веб-алат за постављање упита који ради преко свих логотипа базе података које сте видели на претходном слајду. Оно што ћу посебно покушати демонстрирати је начин на који информације из каталога долазе до корисника. И то се чини на три различита начина. То се врши интервенцијама и ту неко ко је гувернер података, управник података или неки администратор или менаџер може рећи: „Желим да међам са напоменом или упозорењем у тијек рада и осигурајте да буде достављен корисницима у право вријеме. "Дакле, то је интервенција и то ћемо показати.

Паметне сугестије су начин на који алат користи сво своје збирно знање из каталога да би предложио предмете и делове упита док га пишете. Најважнија ствар коју треба знати је да се заиста користи предност упута за упите да се то направи, да се предложе ствари засноване на употреби и да се пронађу чак и делови уписа који су претходно написани. И то ћемо показати.

А затим прегледи. Прегледи су док куцате назив објекта, показаћемо вам све што каталог зна или барем најрелевантније ствари које каталог зна о том објекту. Дакле, узорци података, који су их користили раније, логично име и опис тог објекта, долазе вам све док их пишете, а да не морате да их тражите.

Дакле, без икаквог више разговора, доћи ћу до демонстрације, и само ћу чекати да се појави. Оно што ћу вам овде показати је алат за упите. То је наменски интерфејс за писање СКЛ-а. То је у одређеном смислу одвојени интерфејс од каталога. Дез и Робин су разговарали о каталогу, а ја мало скачем по каталошком интерфејсу како бих га директно унео да бих служио током рада.

Овдје само приказујем мјесто на којем могу уписати СКЛ, а на дну ћете видјети да се некако појављују неке информације о објектима које референцирамо. Дакле, тек ћу почети да куцам упит и престаћу кад дођем до једне од ових интервенција. Тако да ћу откуцати „селецт“ и желим годину. Хоћу име. Идем да потражим неке податке о платама. Дакле, ово је скуп података о образовању. Има податке о високошколским установама, а ја гледам просечну плату факултета која се налази у једној од тих табела.

Дакле, ја сам уствари уписао реч „плата“. То није тачно у име колоне. За предлоге користимо и логичке и метаподатке. И оно што желим овде истакнути је ова жута кутија која се појављује овде. Каже да постоји упозорење на овој колони. Нисам то тражио, нисам предавао како правилно користити ове податке. Дошло ми је и догађа се да буде упозорење о споразуму о поверљивости који има везе са овим подацима. Дакле, постоје нека правила обелодањивања. Ако желим да испитам ове податке, извадићу податке из ове табеле, требало би да пазим како их откривам. Дакле, овде имате политику управљања. Постоје одређени изазови у вези са усклађивањем због којих је толико лакше ускладити се са овом политиком када за то знам у време када гледам податке.

Дакле, то сам схватио, а онда ћу такође погледати школарину. И овде видимо да ће се прегледи одиграти. На овој колони за подучавање видим - на табели институција постоји колона за подучавање и ја видим профил тога. Алатион иде и извлачи узорке података из табела, и у овом случају, показује ми нешто што је прилично занимљиво. Приказује ми расподелу вредности и показује ми да се нула вредност показала у узорку 45 пута, и више од било које друге вредности. Тако да имам неки осећај да нам можда недостају неки подаци.

Ако сам напредни аналитичар, то ће можда већ бити део мог процеса рада. Поготово ако сам посебно пажљив, где бих испред времена обавио гомилу упита за профилирање. Кад год се приближавам новом делу података, увек размишљам о томе шта је наша покривеност подацима. Али ако сам нови у анализи података, ако сам нови у овом скупу података, претпостављам да ако постоји колона, стално се попуњава. Или могу претпоставити да ако није попуњен, није нула, ниједан или нешто слично. Али у овом случају имамо пуно нула и ако бих учинио просек вероватно би погрешио, ако само претпоставим да су те нуле заправо нула уместо да недостају подаци.

Али Алатион, увођењем овог прегледа у ваш ток посла, од вас тражи да погледате ове информације и пружи чак и прилику почетницима-аналитичарима да виде да овде има нешто за приметити у вези с тим подацима. Дакле, имамо тај преглед.

Следећа ствар коју ћу урадити је да покушам да откријем из којих табела добијам ове информације. Дакле, овде видимо паметне предлоге. Стално иде, али посебно овде, нисам још ништа написао, али ће ми предложити које табеле бих желео да користим за овај упит. И најважнија ствар коју треба знати о томе је да искористи статистику употребе. Дакле, у окружењу попут, на пример, еБаи-а, у којем имате стотине хиљада таблица у једној бази података, имате алат који може некако погодити пшеницу из пањева и користити те податке о употреби, заиста је важан за прављење ових предлози нешто вреде.

Стога ћемо предложити ову табелу. Када погледам преглед, ми заправо истичемо три колоне које сам већ споменуо у упиту. Тако да знам да има три, али нема име. Морам да добијем име, па ћу се придружити. Када се придружим, сада имам ове прегледе да ми помогну да нађем, где је табела са називом. Тако да видим да овај има лепо форматирано, врста правилно написаних великих слова. Изгледа да има један ред са називом за сваку институцију, тако да ћу то схватити, а сада ми треба услов за придруживање.

И тако, ево шта Алатион ради опет се враћа евиденцијама упита, видевши претходно да су се те две табеле спојиле и предлаже различите начине да им се придруже. Још једном, постоји нека интервенција. Ако погледам једно од ових, добиће се упозорење које ми показује да ово треба користити само за анализу агрегата. То ће вероватно произвести погрешну ствар ако покушате нешто да урадите преко установе по институцију. Док је овај, уз ОПЕ ИД означен као прави начин спајања ове две табеле ако желите податке на нивоу универзитета. Дакле, то радим и то је кратак упит, али написао сам упит без да заиста морам имати увид у то шта су подаци. Никада нисам гледао ЕР дијаграм овог скупа података, али знам доста о тим подацима већ због тога што ми долазе релевантне информације.

Дакле, то су нека од три начина на која каталог може, путем интегрисаног алата за упите, директно утицати на ток рада док пишете упите. Али једна од других предности интегрисања алата за упите у каталог је та што када завршим свој упит и сачувам га, могу да ставим наслов попут „Настава у институцијама и факултетска плата“, а овде имам дугме које дозвољава ми да је само објавим у каталогу. Постаје ми врло лако да нахраним ово леђа. Чак и ако га не објавим, снима се као део дневника упита, али када га објавим, заправо постаје део начина на који је централизовано место у којем живи све знање података.

Дакле, ако кликнем на Претраживање свих упита у Алацији, преузет ћу се - а овде ћете видети још неколико каталошког интерфејса - одвешћу се на наменску претрагу упита која ми показује начин да пронађем упите широм целокупна организација. И видите да је мој новообјављени упит на врху. И неки би овде могли приметити да, када хватамо упите, ми такође хватамо ауторе, и некако успостављамо тај однос између мене као аутора и ових објеката података о којима сада нешто знам. И успостављам се као стручњак за овај упит и за ове податке података. То је заиста корисно када људи морају да сазнају више о подацима, онда могу да пронађу праву особу о којој ће учити. А ако сам заправо нови у подацима, да ли сам напредни аналитичар - као напредни аналитичар, могу погледати ово и видети гомилу примера који ће ме покренути на новом скупу података. Као неко ко можда не осећа супер памет са СКЛ-ом, могу пронаћи унапред упите који су извештаји које могу да искористим.

Ево једног Пхил Мазанетта о средњим САТ резултатима. Кликните на ово и ја добијам неку врсту каталошке странице за сам упит. Говори о написаном чланку који се односи на овај упит, тако да постоји нека документација коју морам да прочитам ако желим да научим како да је користим. А ја га могу отворити у алату за упис кликом на дугме Састави и могу га само покренути овде, а да га чак и не уредим. У ствари, ви видите мало наших лаганих могућности извештавања, где приликом писања упита можете да упаднете у променљиву шаблону попут ове, а то ствара једноставан начин за креирање обрасца за извршавање упита на основу на пар параметара.

То је оно што имам за демо. Вратићу се на слајдове. Само да бисмо направили рекапитулацију, показали смо како администратор, гувернер података, може интервенирати стављајући упозорења на објекте који се приказују у алату за упите, како Алатион користи своје знање о кориштењу података података за паметне предлоге, како то доноси у профилисање и друге савете за побољшање токова рада аналитичара када додирују одређене предмете и како се све те врсте враћају у каталог када се упишу нови упити.

Очигледно сам портпарол у име компаније. Рећи ћу лепе ствари о каталозима података. Ако желите директно да чујете некога од наших купаца, Кристие Аллен из Сафеваи-а води тим аналитичара и има заиста згодну причу о времену када јој је требало стварно потући сат да би се испоручио маркетиншки експеримент и како је цела тим је Алатион искористио да сарађује и врло брзо се окренуо на том пројекту. Тако да можете да пратите ову бит.ли везу да бисте проверили ту причу или ако желите мало чути о томе како би Алатион могао да унесе каталог података у вашу организацију, радо ћемо поставити персонализовани демо. Хвала пуно.

Ребека Јозвиак: Пуно хвала, Давид. Сигуран сам да Дез и Робин имају неколико питања пре него што се обратим К&А публици. Дез, да ли желиш први?

Дез Бланцхфиелд: Апсолутно. Волим идеју о овом концепту објављених упита и повезујем га са извором аутора. Био сам дугогодишњи шампион ове идеје о интерној продавници апликација и мислим да је ово заиста сјајан темељ на којем се треба градити.

Дошао сам некако да добијем увид у неке организације које видите да ово раде, и неке приче о успеху које су могле имати током овог путовања не само да користе ваш алат и платформу за откривање података, већ такође трансформишу своје унутрашње културне и понашања у понашању. Сад имају овакву интерну трговину апликација коју једноставно преузмете, концепт у којем не само да могу да је пронађу, већ заправо могу започети развој малих заједница са власницима тог знања.

Давид Цравфорд: Да, мислим да смо били изненађени. Верујемо у вредност дељења упита, како из моје прошлости као менаџера производа у Адтецх-у, тако и од свих купаца са којима смо разговарали, али и даље сам изненађен колико често је то једна од првих ствари које купци разговарају о вриједности коју они извлаче из Алације.

Испитивао сам алат за упите код једног од наших клијената званог Инвоице2го, и имали су менаџера производа који је био релативно нов, и рекли су ми - заправо ми је рекао, необуздан током корисничког испитивања: „Заправо не бих уопште писати СКЛ, осим што га Алатион олакшава. "И наравно, као премијер, некако сам рекао:" Како то мислиш, како смо то урадили? ", а он је рекао, " Па, заиста је једноставно јер се могу пријавити и могу видјети све ове постојеће упите. "Покретање с празном плочом са СКЛ-ом је невјероватно тешка ствар, али модифицирање постојећег упита на којем можете видјети резултат који је испостављен и можете рећи, "Ох, треба ми само овај додатни ступац", или, "Морам да га филтрирам на одређени распон датума", то је много лакша ствар.

Видели смо врсте ових помоћних улога, попут менаџера производа, можда људи у продавницама, који почињу да се баве, и који су увек желели да науче СКЛ и почну да га подижу користећи овај каталог. Такође смо видели да је доста компанија покушало да уради неку врсту отвореног кода. Покушао сам да изградим такве ствари интерно, где прате упите и стављају их на располагање, а ту су и заиста неки напорни дизајнерски изазови да их учиним корисним. Фацебоок је имао интерни алат који су назвали ХиПал који је снимио све упите написане на кошници, али оно што откријете је да, ако не гурнете кориснике на прави начин, једноставно завршите са веома дугачак списак одабраних изјава. И као корисник који покушава да схвати да ли ми је упит користан или је то корисно, ако само погледам дугачку листу изабраних изјава, требат ће ми много дуже да тамо добијем нешто више од вредности почевши од нуле. Позорно смо размислили како да направимо каталог упита који ће праве ствари доносити на предњу страну и пружати их на користан начин.

Дез Бланцхфиелд: Мислим да сви путујемо овим путем од малих ногу, преко одраслих, на много начина. Гомила технологија. И ја сам лично прошао кроз исту истинску ствар, као што сам научио да сече код. Пролазио бих кроз часописе, а затим и књиге, и студирао бих до одређеног нивоа, а онда сам требао да прођем и заправо да добијем још неке обуке и едукације о томе.

Али нехотице сам открио да сам, чак и кад сам ишао од предавања и читања часописа, читања књига и сечења програма других људи и похађања курсева о њему, ипак завршио да учим онолико колико радим курсеве као што сам то говорио само са другим људи који су имали неких искустава. И мислим да је занимљиво откриће да, сада када то донесете на анализу података, ми у основи видимо ту исту паралелу, да су људска бића увек прилично паметна.

Друга ствар коју заиста желим да разумем је да ће се на веома високом нивоу многе организације питати: „Колико времена треба да се дође до те тачке?“ Који је прелазни тренутак када људи стигну инсталирана вам је платформа и почели су да откривају врсте алата? Колико брзо људи тек виде да се ова ствар претвара у заиста тренутни „а-ха“ тренутак у којем схвате да се више не брину о РОИ-ју јер је ту, али сада заправо мењају начин пословања. ? Открили су изгубљену уметност и очекују да са њом могу урадити нешто заиста, јако забавно.

Давид Цравфорд: Да, могу мало да се дотакнем. Мислим да кад се инсталирамо, да је једна од лепих ствари, једна од ствари које људи воле у ​​вези са каталогом који је директно повезан у систем података, да не почињете празно тамо где морате да га испуните. страница по страницу. То се некако односи на претходна решења података где бисте почели са празним алатом и морали бисте да креирате страницу за све што желите да документујете.

Будући да толико много ствари документујемо аутоматски екстрахирањем метаподатака, у основи у року од неколико дана од инсталирања софтвера, можете имати слику свог окружења података која је најмање 80 процената тамо у алату. И онда помислим чим људи почну да пишу упите помоћу алата, аутоматски се спремају назад у каталог и тако ће почети да се приказују.

Не желим бити претјерано нестрпљив у изношењу тога. Мислим да је две недеље прилично добра конзервативна процена, и то за месец дана. Две недеље до месец дана, конзервативна процена тога да се заиста окрећете и осећате као да добијате вредност од тога, као да почињете делити неко знање и бити у могућности да одете тамо и сазнате ствари о својим подацима.

Дез Бланцхфиелд: Заиста је невероватно, кад размислите. Чињеница да ће некима од великих платформи података које ефикасно индексирате и каталогизирати бити потребно понекад и годину дана да бисте их правилно имплементирали и имплементирали и устали.

Последње питање које имам за вас пре него што се предам Робин Блоору, јесу конектори. Једна од ствари која ми одмах искочи је да сте очигледно средили цео овај изазов. Дакле, брзо се поставља пар питања. Прво, како се брзо имплементирају конектори? Очигледно да започињете с највећом платформом, попут Орацлес-а и Терадата-а и тако даље, ДБ2-ова. Али колико редовно видите нове конекторе и колико времена преузимају? Претпостављам да имате стандардни оквир за њих. И колико дубоко уђете у то? На пример, светски Орацлес и ИБМ, па чак и Тереадата, а затим и неке од популарнијих платформи касног отвореног кода. Да ли раде директно са вама? Откривате ли то сами? Морате ли имати знање о тим платформама?

Како изгледа успостављање конектора и колико дубоко се укључите у та партнерства како бисте осигурали да ти конектори открију све што бисте могли?

Давид Цравфорд: Да, свакако, то је сјајно питање. Мислим да у највећем делу можемо развити конекторе. Сигурно смо то радили када смо били млађи стартуп и нисмо имали муштерија. Везе сигурно можемо развити без потребе за унутрашњим приступом. Никада не добијамо никакав посебан приступ системима података који нису јавно доступни, а често не требају никакве унутрашње информације. Користимо услуге метаподатака које нуде сами системи података. Често могу бити прилично сложени и с њима је тешко радити. Конкретно знам СКЛ Сервер, начин на који они управљају евиденцијом упита, постоји неколико различитих конфигурација и то је нешто на чему заиста морате радити. Морате схватити нијансе и дугмади и бројчанике на њему да бисте га правилно поставили и то је нешто на чему радимо са купцима од када смо то радили већ неколико пута раније.

Али, у одређеној мери, ми користимо врсте јавних АПИ-ја који су на располагању или јавна сучеља која су на располагању. Имамо партнерства са неколико ових компанија, то је углавном основа за сертификацију, тако да се они осећају пријатно када говоримо да радимо и такође могу да нам пруже ресурсе за тестирање, понекад и рани приступ можда платформи која излази да би били сигурни да радимо на новим верзијама.

Да преокренем нову везу, рекао бих опет, покушавајући да будем конзервативан, рецимо шест недеља до два месеца. Зависи од тога колико је сличан. Тако неки од Постгре делују некако слично као Редсхифт. Редсхифт и Вертица деле пуно својих детаља. Тако да можемо да искористимо те ствари. Али да, шест недеља до два месеца би било фер.

Имамо и АПИ-је, тако да - мислимо и на Алатион као платформу метаподатака, тако да ако ништа није на располагању да бисмо посегнули и аутоматски се ухватили, постоје начини да сами можете да напишете конектор и гурнете га у наш систем да се све још увек централише у једном претраживачу.

Дез Бланцхфиелд: Фантастично. Ценим то. Дакле, ми ћемо га предати Робину, јер сам сигуран да и он има мноштво питања. Робин?

Ребека Јозвиак: Робин је можда у немилости.

Дез Бланцхфиелд: Престали сте са звуком .

Робин Блоор: Да, у реду. Извини, искључио сам себе. Када ово имплементирате, шта је процес? Радознала сам јер на многим местима може бити пуно података. Па како то ради?

Давид Цравфорд: Да, наравно. Улазимо, прво је то нека врста ИТ процеса како би се осигурало да је наш сервер предвиђен, осигуравајући да су мрежне везе доступне, да су портови отворени како бисмо заправо могли приступити системима. Они често знају са којим системима желе да започну. Знајући унутрашњост система података, који ће им, а понекад и стварно помоћи. Помоћи ћемо им да ураде почетни преглед дневника упита како би схватили ко користи шта и колико корисника имају у систему. Па ћемо вам помоћи да сазнамо где - они често, ако имају стотине или хиљаде људи који би се могли пријавити у базе података, заправо не знају где се пријављују, па можемо да сазнамо из евиденција упита колико јединствених корисничких налога заиста се пријављујете и извршавате упите овде у року од месец дана.

Тако можемо то искористити, али често само оне најважније. Постављамо их и постављају се процеси: "Дајмо предност." Постоји низ активности које се могу одвијати паралелно. Усредсредио бих се на обуку за употребу алата за постављање упита. Једном када људи почну да користе алат за постављање упита, пре свега, многи људи воле чињеницу да је то само један интерфејс за све њихове различите системе. Они такође воле чињеницу да је веб-базиран, не укључује ниједну инсталацију ако то не желе. Са становишта сигурности, воле да имају једну јединствену тачку улаза, са становишта мреже, између врсте корпоративне ИТ мреже и податковног центра у којем живе производни извори података. И тако, поставиће Алатион као алат за упите и почеће да користи Цомпосе као тачку приступа за све ове системе.

Кад се то догоди, оно на шта смо се фокусирали на тренингу, је разумевање неких разлика између интернетског или серверског алата за упите у односу на један који имате на радној површини и неке нијансе коришћења то. И истовремено ћемо покушати да идентификујемо највредније податке, поново искориштавајући информације из евиденције упита и говорећи: „Хеј, можда бисте желели да уђете и помогнете људима да то разумеју. Почнимо објављивати репрезентативне упите на тим табелама. "То је понекад најефикаснији начин да се људи брзо спусте. Погледајмо вашу историју упита, објавимо те ствари тако да се приказују као први упити. Када људи погледају страницу табеле, могу видети све упите који су се дотакли те табеле и могу почети одатле. А онда кренимо додавати наслове и описе овим објектима како би их лакше пронашли и претраживали, тако да знате неке нијансе како их користити.

Осигуравамо да детаљно погледамо евиденцију упита како бисмо могли да генерирамо лозе. Једна од ствари коју радимо је да погледамо кроз евиденцију упита у тренуцима када се подаци премештају из једне табеле у другу, а то нам омогућава да поставимо једно од најчешће постављаних питања о табели података, одакле је то дошло? Како да верујем у то? Па, оно што можемо показати није само из којих других таблица је настала, већ и како је трансформисана на путу. Опет ово некако покреће дневник упита.

Тако да смо сигурни да су те ствари постављене и да уносимо линију у систем, и циљамо највредније и најизразитије дијелове метаподатака које можемо успоставити на страницама таблице, тако да када тражите, нађете нешто корисно.

Робин Блоор: У реду. Друго питање - има пуно питања публике, тако да не желим превише времена да заузмем овде - друго питање које ми пада на памет су само болови. Много софтвера је купљено зато што људи, на овај или онај начин, имају проблема са нечим. Па која је заједничка тачка боли која људе води у Алацију?

Давид Цравфорд: Да. Мислим да их има неколико, али мислим да је један од оних које чујемо прилично често аналитичар на броду. „Морат ћу у кратком року запослити 10, 20, 30 људи који ће из тих података морати произвести нове увиде, како ће доћи до брзине?“ Дакле, аналитичар укрцавања је нешто што сигурно бавити се Постоји и ослобађање старијих аналитичара да троше своје време на одговоре других на податке о подацима. И то је врло често. И једно и друго су у основи образовни проблеми.

И онда бих рекао да је још једно место које видимо да људи прихватају Алацију када желе да успоставе потпуно ново окружење података за некога у коме раде. Они то желе да интерно рекламирају и пласирају како би их људи искористили. Потом је Алатион претпоставка за то ново аналитичко окружење врло привлачна. Има документацију, има јединствену тачку увода у - јединствену тачку приступа системима, тако да је то друго место где ће људи доћи к нама.

Робин Блоор: У реду, пренећу те Ребеки јер публика покушава да дође до тебе.

Ребецца Јозвиак: Да, овде имамо пуно заиста добрих питања публике. А Давид, овај је био посебно позиран за тебе. То је од некога ко очигледно има искуства са људима који злоупотребљавају упите и он некако каже да што више оснажујемо кориснике то је теже управљати одговорном употребом рачунарских ресурса. Можете ли се бранити од ширења погрешних, али уобичајених упитних фраза?

Давид Цравфорд: Да, видим ово питање. То је сјајно питање - једно које добијамо прилично често. Бол сам видео и у претходним компанијама, где треба да обучавате кориснике. На примјер, „Ово је таблица дневника, дневници се враћају годинама. Ако ћете написати упит на ову табелу, заиста се морате ограничити по датуму. "Дакле, на пример, ово је обука коју сам прошао у претходној компанији пре него што сам добио приступ бази података.

Имамо неколико начина на који покушавамо да решимо ово. Рекао бих да мислим да су подаци из евиденције упита заиста јединствено вриједни за њихово рјешавање. То даје још један увид насупрот ономе што база података ради интерно са својим планом упита. А оно што радимо је једна од тих интервенција - ми имамо ручне интервенције које сам показао и то су корисне, зар не? Тако, на пример, на одређеном придруживању, можете да кажете, „Укоришћемо ово“. Имаће велику црвену заставу када се појави у паметном сугестији. Дакле, то је један од начина покушаја доласка до људи.

Још једна ствар коју радимо је да се аутоматизујемо у време извршења интервенција. Заправо ћемо употребити стабло претраживања упита пре него што га покренемо да видимо да ли садржи одређени филтер или неколико других ствари које такође радимо тамо. Али једна од највреднијих и најједноставнија за објашњење је да ли укључује филтер? Као и онај пример који сам управо дао, ова таблица дневника, ако ћете је питати, мора имати распон датума, на страници табеле можете одредити да одредите да се филтар датумског периода примењује. Ако неко покуша покренути упит који не укључује тај филтер, он ће их заправо зауставити великим упозорењем и рећи ће: „Вероватно би требало да додате неки СКЛ који овако изгледа у ваш упит.“ Они могу наставити ако они желе. Нећемо им у потпуности забранити да га користе - то је и упит, на крају дана морају покренути упите. Али испред њих постављамо прилично велику баријеру и дајемо им предлог, конкретан применљиви предлог за измену упита ради побољшања њихових перформанси.

То заправо радимо и аутоматски у неким случајевима, поново проматрајући дневник упита. Ако видимо да неки заиста велики проценат упита у овој табели користи одређени филтер или одређену клаузулу придруживања, тада ћемо то стварно искочити. То ћемо промовисати у интервенцију. Заправо ми се догодило у интерном скупу података. Имамо податке о клијентима и имамо идентификационе бројеве корисника, али кориснички ИД је постављен, јер је то нека врста - имамо корисничке ИД-ове код сваког купца. Није јединствен, па га морате упарити са ИД-ом клијента како бисте добили јединствени кључ за придруживање. И писао сам упит и покушао сам нешто да анализирам и искочило је и рекао: „Хеј, чини се да се сви остали придружују овим таблицама и са ИД-ом клијента и са корисничким ИД-ом. Јесте ли сигурни да то не желите? "И заправо ме спречило да направим неку погрешну анализу. Дакле, делује како за тачност анализе, тако и за перформансе. То је начин на који се ми бавимо тим проблемом.

Ребека Јозвиак: То би ми се чинило ефикасним. Рекли сте да нећете блокирати људе да вежу ресурсе, али на неки начин их научите да оно што раде можда и није најбоље, зар не?

Давид Цравфорд: Увек претпостављамо да корисници нису злонамерни - дајте им најбоље намере - и трудимо се да на тај начин будемо прилично отворени.

Ребека Јозвиак: У реду. Ево још једног питања: „Која је разлика између менаџера каталога, као што је ваше решење, и МДМ алата? Или се заправо ослања на другачији принцип ширењем избора табела упита, док ће МДМ то учинити аутоматски, али са истим основним принципом прикупљања метаподатака. "

Давид Цравфорд: Да, мислим да када погледам традиционална решења о МДМ-у, основна разлика је филозофска. Све је у питању ко је корисник. Овако као што сам рекао на почетку свог излагања, Алатион, мислим да смо, када смо основани, основани са циљем да аналитичарима омогући да дају више увида, брже их производе, да буду тачнији у увидима које они производити. Мислим да то икада није био циљ традиционалног решења о МДМ-у. Та решења имају тенденцију да буду усмерена на људе који морају да извештавају о томе који су подаци забележени у ПКС или интерно за неку другу врсту ревизије. Понекад то може омогућити аналитичарима, али чешће ће, ако ће омогућити практичарима у њиховом раду, вјероватније омогућити архитектуру података као што је ДБА.

Када размишљате о стварима са становишта аналитичара, тада почињете да правите алат за упите који МДМ алат никада не би урадио. Тада почињете размишљати о учинку и тачности, као и о разумевању који се подаци односе на моје пословне потребе. Све су то ствари које нам некако падају на памет при дизајнирању алата. Улази у наше алгоритме претраживања, улази у изглед страница каталога и могућност доприноса знању из целе организације. Оно иде у чињеницу да смо изградили алат за упите и да смо директно у њега уградили каталог, тако да мислим да то заиста и долази од тога. Кога корисника прво имаш на уму?

Ребека Јозвиак: Добро, добро. То је заиста помогло да се објасни. који је умро да се домогне архиве јер је морао да оде, али је стварно желео да му одговори питање. Рекао је да је у почетку поменуто да постоји више језика, али да ли је СКЛ једини језик кориштен унутар компоненте Цомпосе?

Давид Цравфорд: Да, то је истина. И једна од ствари које сам приметио, док сам био сведок експлозије различитих врста база података, база података, база података графикона, складишта кључних вредности, јесте да су заиста моћне за развој апликација. Они тамо могу заиста добро служити одређеним потребама и то на боље начине него што то могу релацијске базе података.

Али, када то вратите на анализу података, када га вратите назад - када желите да дате те информације особама које ће радити ад хоц извештавање или ад хоц копање података, они се увек враћају у релацију Барем интерфејс за људе. Део тога је само зато што је СКЛ лингуа франца анализе података, тако да то значи и за људе, то је и за алате који се интегришу. Мислим да је то разлог што је СКЛ на Хадоопу толико популаран и постоји толико покушаја да се то реши, зато што на крају дана то људи знају. Вероватно постоје милиони људи који знају како да пишу СКЛ, а не бих се усуђивао милионима који знају како да напишу Монго оквирни упит за цевовод за агрегацију. И да је то стандардни језик који се користи за интеграцију у заиста широку палету платформи. Дакле, све што то говори, од нас се ретко тражи да изађемо ван ње јер је ово интерфејс који већина аналитичара користи, и место где смо се фокусирали, посебно у Цомпосе-у, да смо се фокусирали на писање СКЛ-а.

Рекао бих да је наука података место на којем се највише баве и зато повремено постављамо питања о коришћењу Пиг-а или САС-а. То су ствари са којима дефинишемо да се не бавимо Цомпосе-ом и које бисмо желели да забележимо у каталогу. А видим и Р и Питхон. Имамо неколико начина на које смо направили интерфејсе да можете користити упите написане у Алатион унутар Р и Питхон скрипте, тако да, често када сте научник података и радите на скриптном језику, изворни подаци се налазе у релацијској бази података. Почињете са СКЛ упитом, а затим га даље обрађујете и креирате графиконе унутар Р и Питхон-а. И направили смо пакете које можете да увезете у оне скрипте које повлаче упите или резултате упита из Алатион-а како бисте тамо имали искомбиновани радни ток.

Ребека Јозвиак: У реду, одлично. Знам да смо прошли мало иза врха сата, само ћу вам поставити још једно или два питања. Знам да сте разговарали о свим различитим системима на које можете да се повежете, али што се тиче података са спољним хостовима и интерно хостованих података, да ли можете заједно да их претражите у вашем јединственом погледу, на вашу једну платформу?

Давид Цравфорд: Наравно. Постоји неколико начина за то. Мислим, спољно домаћин, замислио бих, покушавам да размислим шта би то конкретно могло значити. То може значити базу података да неко гостује у АВС-у за вас. То може значити јавни извор података из дата.гов. Повезујемо се директно са базама података пријављивањем као и друга апликација са налогом базе података и тако извлачимо метаподатке. Дакле, ако имамо налог и отворимо мрежни порт, можемо доћи до њега. А онда када немамо те ствари, имамо нешто што се зове виртуални извор података, што вам омогућава да у суштини потиснете документацију, било да је аутоматски, писањем сопственог конектора или попуњавањем, чак и попут ЦСВ датотеке, да документујете податке заједно са вашим унутрашњим подацима. То се смешта у претраживач. То се може упутити у чланке и другу документацију и разговоре унутар система. Тако поступамо када се не можемо директно повезати са системом.

Ребека Јозвиак: Ок, то има смисла. Само ћу вам открити још једно питање. Један полазник је на питање: "Како треба да се потврди, верификује или одржава садржај каталога података, како се изворни подаци ажурирају, како се изворни подаци мењају итд."

Давид Цравфорд: Да, то је питање које добијамо пуно, и мислим да једна од ствари које смо - једна од наших филозофија, као што сам рекао, не верујемо да су корисници злонамерни. Претпостављамо да покушавају да допринесу најбољем знању. Неће ући и намерно обмањивати људе у вези са подацима. Ако је то проблем у вашој организацији, можда Алатион није прави алат за вас. Али ако претпоставите добре намере корисника, онда о томе размишљамо као о нечему, долазе надоградње, и обично оно што радимо је да поставимо управитеља задуженог за сваки објект података или сваки део података. А ми можемо обавестити те управнике када се промене метаподаци и они се на тај начин могу носити са њима. Они виде ажурирања и потврђују их. Ако нису у праву, могу да се врате и модификују и информишу, па надамо се чак и да контактирају корисника који је допринео информацијама и помогао им да науче.

То је примарни начин на који размишљамо о томе. Ова врста сугестије од стране гомиле и управе од стране управитеља, тако да имамо неке могућности око тога.

Ребека Јозвиак: Добро, добро. А ако само можете рећи људима како да најбоље започну с Алатионом и где могу посебно да добију више информација. Знам да си делила тај бит.ли. Је ли то најбоље место?

Давид Цравфорд: Алатион.цом/леарнморе Мислим да је то сјајан начин. Да бисте се пријавили за демонстрацију, веб локација Алатион.цом има много сјајних ресурса, белешки клијената и вести о нашем решењу. Тако да мислим да је то сјајно место за почетак. Такође можете да пошаљете е-поштом.

Ребека Јозвиак: У реду, одлично. И знам, полазници, жао ми је што данас нисам стигао до свих питања, али ако не, они ће бити прослеђени Давиду или његовом продајном тиму или некоме у компанији Алатион, тако да дефинитивно могу помоћи да одговоре на ваша питања и помогну разумети шта Алатион ради или шта најбоље раде.

И с тим, народе, идем даље и потпишу нас. Архиве увек можете пронаћи на ИнсидеАналисис.цом. Такође га можете пронаћи на Тецхопедиа.цом. Обично се ажурирају мало брже, тако да свакако то проверите. И пуно хвала Давиду Цравфорду, Дез Бланцхфиелд-у и Робину Боору данас. Била је то сјајна интернет емисија. И са тим ћу се опростити. Хвала, људи. Ћао.

Давид Цравфорд: Хвала.

Моћ сугестије: како каталог података омогућава аналитичарима