Аутор особља Тецхопедиа, 2. јуна 2016
Изношење: Екосистем Хадооп се користи на главним рачуналима за брзу и ефикасну обраду великих података.
Тренутно нисте пријављени. Пријавите се или пријавите да бисте видели видео.
Ериц Каванагх: У реду даме и господо, у четвртак је четири сата источно, а ових дана то значи да је наравно време за Хот Тецхнологиес. Да, заиста, моје име је Ериц Каванагх. Бићу ваш модератор данашњег веб семинара. Добра је ствар, људи, „Биг Ирон, Меет Биг Дата“ - Обожавам тај наслов - „Ослобађање података главног рачунара са Хадоопом и Спарком“. Разговараћемо о старим новим сусретима. Вау! Покривамо спектар свега о чему смо разговарали у последњих 50 година ИТ предузећа. Спарк се среће са маинфрамеом, свиђа ми се.
Постоји место о вашем истинском и довољно о мени. Година је врућа. У овој серији говоримо о врућим темама јер стварно покушавамо да помогнемо људима да разумеју одређене дисциплине, одређене просторе. Шта значи, на пример, имати аналитичку платформу? Шта значи ослобађање великих података из главних оквира? Шта све ово значи? Покушавамо да вам помогнемо да разумете одређене врсте технологија, где се уклапају у микс и како их можете користити.
Данас имамо двојицу аналитичара, а онда наравно и Тенду Иогуртцу из Синцсорт. Она је визионарка на нашем простору, веома јој је драго што је данас на мрежи, с нашим Дез Бланцхфиелд-ом и др Робин Блоор-ом. Рећи ћу само пар брзих речи. Једно је да, људи, играте велику улогу у овом процесу, зато вас молим да се не стидите постављати добра питања. Желели бисмо да дођемо до њих током К&А компоненте веб емисије, која је обично на крају емисије. И све што морам да кажем је да имамо пуно доброг садржаја, тако да сам узбуђен кад чујем шта ови дечаци имају да кажу. А с тим ћу га предати Дез Бланцхфиелд-у. Дез, под је твој, однеси то.
Дез Бланцхфиелд: Хвала, Ериц, и хвала свима што сте данас присуствовали. Тако се прилично узбуђујем када добијем прилику да причам о једној од мојих најдражих ствари на свету, главним оквирима. Ових дана не воле много љубави. Моје је мишљење да је маинфраме била оригинална платформа за велике податке. Неки ће тврдити да су у то време били једини рачунар и то је поштено питање, али већ више од 60 година они су заправо били машинерија оног што су велики подаци у последње време били популарни. А ја ћу те повести на мало путовање зашто верујем да је то случај.
Видели смо путовање у техничким пакетима хардвера у контексту да се маинфрамес премешта од слике коју сада видите на екрану. Ово је стари ФАЦОМ маинфраме, један од мојих омиљених. Прешли смо у велику жељезну фазу, касне деведесете и дот-цом бум. Ово је Сун Мицросистемс Е10000. Ова ствар је била апсолутно чудовиште на 96 ЦПУ-а. Првобитно 64, али могао би се надоградити на 96 ЦПУ-а. Сваки ЦПУ може покренути 1.024 нити. Свака нит може истовремено бити у апликацијској брзини. Био је само монструозан и заправо је покренуо дот-цом бум. Ово су све велики једнороди како их ми зовемо, сада покрећемо, и не само велика предузећа, нека од великих веб локација.
А онда смо завршили са овим уобичајеним ПЦ рачунаром који није доступан. Једноставно смо повезали много јефтиних машина и створили смо грозд и приступили великом изазову гвожђа и ономе што је постало великим подацима, нарочито у облику Хадооп пројекта који је произашао из претраживача отвореног кода, Нутцх. И у суштини смо рекреирали маинфраме и пуно малих ЦПУ-а који су залепљени заједно и који могу да делују као Л-стазе и у облику извођења засебних послова или делова послова и они су били на много начина ефикасни. Јефтиније ако сте започели са мањим, али непроменљиво многи од ових великих кластера су скупљи од главног рачунара.
Моје гледиште о тим стварима је да смо, у налету од дот-цом процвата до онога што је постало Веб 2.0 и сада јуре једнороге, заборавили смо да ова платформа још увек напаја многе наше највеће критичне системе вани. Кад размишљамо о томе шта се ради на маинфраме платформама вани. Веома су велики подаци, посебно датахорсе, али свакако велики подаци. Традиционалне системе предузећа и владе попут банкарства и управљања богатством, посебно осигурања, сви користимо сваки дан.
Системи за резервацију авиона и управљање летовима, посебно управљање летом где је реално време критично. Скоро свака држава и савезна влада у неко доба су имале главни оквир и неизбежно их још увек има. Малопродаја и производња. Неки од старог софтвера који је ту негде и никад није отишао. Само наставља са напајањем у производним окружењима и сигурно у малопродаји. Медицински системи. Одбрамбени системи, свакако одбрамбени системи.
Протеклих пар недеља прочитао сам многе чланке о чињеници да неки од система за управљање ракетама и даље раде на старим главним рачуналима за које се боре да пронађу делове. Они смишљају како да се надограде у нове главне оквире. Транспортни и логистички системи. Ово можда не звучи као секси тема, али то су теме којима се свакодневно бавимо у свим линијама. И нека веома велика телекомуникациона окружења и даље раде на маинфраме платформама.
Када размишљате о врстама података који су тамо, сви су критични за мисију. Они су заиста важне платформе и платформе које свакодневно узимамо здраво за готово и на много начина омогућавају живот. Па, ко још увек користи маинфраме и ко су сви ти људи који се држе ових великих платформи и чувају све ове податке? Па, као што рекох овде, верујем да је лако преварити померање медија са великог гвожђа на сталке уобичајених кластера или јефтиних рачунара или к86 машина, мислећи да је маинфраме умро и отишао. Али подаци кажу да се маинфраме никада није угасио и у ствари је ту да остане.
Истраживање које сам саставио овде у последњих неколико недеља показало је да 70 процената предузећа, посебно великих предузећа, подаци и даље леже у главном оквиру неког облика. Седамдесет и један проценат Фортуне 500с и даље негде води основне пословне системе на матичним рачуналима. У ствари, овде у Аустралији имамо неколико организација које имају центар података у средини града. То је ефективни подземни рачунар који ефикасно ради, и број главних маинфраме-а управо ради тамо, откуцава и срећно ради свој посао. И врло мало људи зна да се шетајући улицама, тачно под њиховим ногама, у једном одређеном делу града, налази се овај огромни податковни центар испуњен матичним оквирима. Деведесет и две од 100 банака широм света, сто најбољих банака које су, још увек, управљају банкарским системима на главним рачуналима. Двадесет три од 25 најбољих трговачких ланаца широм света користе главне оквире да и даље управљају својим системима управљања малопродајом на ЕИП и БИ платформама.
Занимљиво је да 10 од 10 најбољих осигуравача и даље управљају својим платформама на маинфраме-у и они заправо напајају своје цлоуд услуге на маинфраме-у. Ако користите веб интерфејс или неку мобилну апликацију негде да постоји интерфејс, то заправо говори о нечем заиста тешком и великом на задњем крају.
Пронашао сам преко 225 државних и локалних владиних агенција широм света који се још увек користе на маинфраме платформама. Сигуран сам да постоји пуно разлога за то. Можда немају буџет за разматрање новог гвожђа, али то је огроман отисак веома великих окружења која раде на маинфрамеу са врло критичним подацима. Као што сам раније напоменуо, већина нација и даље управља својим кључним одбрамбеним системима. Сигуран сам да на много начина покушавају сићи тамо, али ето.
У 2015. години ИДЦ је обавио истраживање и 350 ЦИО испитаних известило је да још увек поседују и управљају великим гвожђем у облику главних оквира. И учинило ми се да је вероватно да је то више од броја великих Хадооп кластера који тренутно раде широм света у производњи - занимљив мали статиста тамо. Наставићу да то потврдим, али то је био велики број. Три стотине педесет ЦИО-ова известило је да још увек имају једну или више главних оквира за производњу.
Прошле, 2015. године, ИБМ нам је покренуо моћни З13, тринаесту итерацију своје маинфраме платформе. Медији су се расправљали о овој ствари јер су били запрепаштени да ИБМ и даље прави главне оквире. Кад су подигли капуљачу и погледали шта се крије испод ствари, схватили су да је заправо једнака скоро свим модерним платформама над којима смо се узбуђивали у облику великих података, Хадооп и свакако гроздови. Ова ствар је покренула Спарк, а сада и Хадооп. На њему бисте могли да покренете хиљаде и хиљаде Линук машина и изгледао је и осећао се као и било који други кластер. Била је то прилично запањујућа машина.
Многе организације су се заузеле за ове ствари и у ствари, дао сам неке податке колико се ових машина заузме. Сада сам видео да је текстуални терминал 3270 већ неко време замењен веб прегледачима и мобилним апликацијама и постоји доста података који то подржавају. Мислим да сада улазимо у еру у којој смо схватили да ти главни оквири не пропадају и да постоји знатна количина података о њима. И тако, оно што сада радимо је једноставно додавање онога што називам алатима за анализу без употребе полица. То нису прилагођене апликације. Ово су ствари које су једнократне. То су ствари које буквално можете само да купите у упакованој кутији и да их прикључите у ваш главни рачунски оквир и урадите неке аналитике.
Као што сам већ рекао, уствари, маинфраме постоји више од 60 година. Када размишљамо о томе колико је дуго, то је дуже него што каријера већине живих ИТ стручњака заправо траје. А у ствари вероватно и неки од њихових живота. 2002. године ИБМ је продао 2.300 главних рачунара. У 2013. години она је нарасла на 2700 главних оквира. То је 2.700 продаја главних рачунара у једној години у 2013. Нисам могао добити тачне податке о 2015, али претпостављам да се брзо приближава 3.000 проданих јединица годишње у 2015., 2013. И радујем се што ћу то моћи да потврдим.
Са издавањем З13, тринаеста итерација маинфраме платформе, за коју мислим да их је коштало око 1, 2 или 1, 3 милијарде долара да би се испочетка развили, ИБМ, то јест, ово је машина која изгледа и осећа се као и сваки други кластер који данас имамо и домаће води Хадооп и Спарк. И сигурно се може повезати са другим аналитичким алатима и алатима за велике податке или неизбежно бити повезан са неким од ваших постојећих или нових Хадооп кластера. Мислим да је укључивање маинфраме платформе у вашу велику стратегију података неопходно. Очигледно је да, ако их имате, имате пуно података и желите да схватите како их тамо уклонити. И остају им да сакупљају прашину на различите начине, ментално и емотивно колико год путује пословни свет, али они су овде да остану.
Повезивање и сучеља за све ваше алате за анализу података матичних рачунара требало би да буду кључни део вашег предузећа, а посебно владиних планова за велике податке. И стално их софтвер примећује, добро их погледају и схватају шта се налази у тим стварима и повезују умове који почињу да добијају мало увида и мало осећаја за оно што је заправо под хаубом. И са тим ћу предати свом драгом колеги, др Робину Блоору и он ће додати на ово мало путовање. Робин, однеси то.
Робин Блоор: Па, хвала. У реду, па откад је Дез отпевао песму менеџмента, прећи ћу на оно што мислим да се дешава у погледу старог света маинфрамеа и новог Хадооп света. Ваљда је велико питање овде, како управљате свим тим подацима? Није моје мишљење да се маинфраме оспорава због велике могућности преноса података - његова велика податковна способност је изузетно, као што је Дез нагласио, изузетно способна. У ствари можете на њега ставити Хадооп кластере. Тамо где је изазов постоји у погледу његовог екосистема и ја ћу на томе некако детаљније разрадити.
Ево неких позиционирања на маинфраме-у. Има високу улазну цену и оно што се заправо догодило у прошлости, од средине 90-их, када је популарност маинфрам-ова почела да опада, склони су да изгубе свој крајњи део, људи који су куповали јефтине маинфрам-ове, а није За ове људе заиста није посебно економски. Али што је горе у средњем и високом опсегу главног рачунара, он је и даље био, и што је демонстрирано заправо невероватно јефтино рачунање.
Требало је рећи, спасио га је Линук, јер је Линук имплементиран на маинфраме омогућио наравно покретање свих Линук апликација. Много Линук апликација је тамо стигло пре него што су велики подаци били реч или две речи. Заправо је прилично одлична платформа за приватни облак. Због тога може учествовати у хибридним размештањима облака. Један од проблема је што недостаје вештина маинфраме-а. Постојеће вјештине у матичном оквиру заправо остаре у смислу да људи напуштају индустрију из пензије из године у годину и тек се замјењују с обзиром на број људи. Дакле, то је проблем. Али то је и даље јефтино рачунање.
Подручје где су изазови, наравно, је цела ова Хадооп ствар. То је слика Доуга Цуттинга са оригиналним Хадооп-овим слоном. Хадооп екосустав је - и остаће - доминантан екосистем великих података. Нуди боље размјере него што маинфраме може постићи, а нижи је трошак као складиште података на дужи пут. Екосистем Хадооп се развија. Најбољи начин да се о овоме размишља о једном када одређена хардверска платформа и оперативно окружење с њом постане доминантно, тада екосистем оживљава. А то се догодило са ИБМ маинфрамеом. Па, касније се десило с Дигитал ВАКС-ом, догодило се са Сунчевим серверима, догодило се са Виндовс-ом, догодило се са Линуком.
И оно што се догодило је да се Хадооп, о којем увек мислим или волим мислити, као о некаквом дистрибуираном окружењу за податке, екосистеме развија невероватном брзином. Мислим ако само споменете разне импресивне прилоге који су отвореног кода, Спарк, Флинк, Кафка, Престо, а затим додате у ту неку базу података, НоСКЛ и СКЛ могућности које сада седе на Хадоопу. Хадооп је најактивнији екосистем који тамо заиста постоји, сигурно у корпоративном рачунању. Али ако то желите да третирате као базу података, у овом тренутку једноставно не успоређује оно што ја сматрам стварним базама података, посебно у простору складишта података. А то у одређеној мери објашњава успех низа великих НоСКЛ база података које не раде на Хадооп-у попут ЦоуцхДБ-а и тако даље.
Као податковно језеро има далеко богатији екосустав од било које друге платформе и неће се из њега уклањати. Његов екосистем није само отворени изворни екосистем. Сада постоји драматичан број чланова софтвера који имају производе који су у основи изграђени за Хадооп или су увезени у Хадооп. И управо су створили екосистем да не постоји ништа што би могло да се такмичи са њим у погледу његове ширине. А то значи да је заиста постала платформа за иновацију великих података. Али по мом мишљењу је још увек незрело и могли бисмо дуго расправљати о томе шта је, а не рецимо, оперативно сазрело са Хадооп-ом, али мислим да је већина људи који гледају ово посебно подручје свесно да је Хадооп деценијама иза главног рачунара у смислу оперативне способности.
Језеро података у развоју. Језеро података је платформа по било којој дефиницији и ако мислите да постоји слој података у корпоративном рачунању сада је врло лако то смислити у смислу фиксних база података плус података језера које чине слој података. Примјене података на језеру су бројне и разнолике. Овде имам дијаграм који само пролази кроз различите податке о потешкоћама које треба урадити ако користите Хадооп као сценско подручје или Хадооп и Спарк као сценско подручје. И добили сте целу ствар - линију података, чишћење података, управљање метаподацима, откривање метаподатака - може се користити и за сам ЕТЛ, али често захтева да ЕТЛ унесе податке. Мастер дата манагемент, пословне дефиниције података, управљање услугама шта се догађа у Хадоопу, управљању подацима животног циклуса и ЕТЛ-ом изван Хадоопа, а такође имате и апликације за директну аналитику које можете да покренете на Хадоопу.
И зато је постао веома моћан и тамо где је успешно имплементиран и имплементиран, обично има барем колекцију оваквих апликација које се врше изнад њега. А већина оних апликација, посебно оних о којима сам упознат, оне тренутно нису доступне на маинфраме-у. Али можете да их покренете на маинфраме, на Хадооп групи која је радила у партицији маинфраме-а.
По мени је језеро података природно подручје за брзу анализу база података и за БИ. Оно постаје мјесто на којем узимате податке, било да се ради о корпоративним подацима или вањским подацима, мијешајте се с њима док то, рецимо, не буде довољно чисто и добро структурирано за употребу, а затим га прослиједите. И све је то још у повојима.
Идеја, по мом мишљењу, о коегзистенцији маинфраме / Хадооп, прва ствар је да велике компаније вероватно неће напустити маинфраме. У ствари, показатељи које сам недавно видео говоре да расту улагања у маинфраме. Али ни они неће занемарити Хадооп екосистем. Видим бројке 60 посто великих компанија које користе Хадооп чак и ако је пуно њих заправо само прототипирање и експериментирање.
Тада је основа: „Како направити да ове две ствари коегзистирају?“, Јер ће требати да деле податке. Подаци који се уносе у језеро података које требају пренијети у главни оквир. Подаци који се налазе у главном оквиру можда ће морати ићи у податковно језеро или кроз податковно језеро да би се придружили другим подацима. И то ће се догодити. А то значи да захтева брз пренос података / могућност ЕТЛ-а. Мало је вероватно да ће се радна оптерећења динамички делити у, рецимо, окружењу маинфраме-а или са нечим у Хадооп окружењу. Биће то подаци који се деле. А већина података ће неминовно пребивати на Хадоопу само зато што је за то најнижа платформа. И коначна аналитичка обрада ће вероватно боравити тамо.
Укратко, на крају требамо размишљати у смислу корпоративног нивоа података, који ће за многе компаније обухватати маинфраме. И тим слојем података треба управљати проактивно. Иначе њих двоје неће коегзистирати добро. Могу ти проследити лопту Ериц.
Ериц Каванагх: Опет Тенду, управо сам те учинио презентатором, па ти то одузми.
Тенду Иогуртцу: Хвала, Ериц. Хвала што сте ме позвали. Здраво свима. Говорити ћу о искуству компаније Синцсорт са купцима у вези са тим како ми видимо како се подаци као средство у организацији изравнавају од маинфраме-а до великих података на аналитичким платформама. Надам се да ћемо и на крају сесије имати времена да поставимо питања од публике, јер то је заиста највреднији део ових веб емисија.
Само за људе који не знају шта Синцсорт ради, Синцсорт је софтверска компанија. Ми смо заправо више од 40 година. Започети са маинфраме стране и наши производи се протежу од маинфраме-а до Уника до великих платформи за податке, укључујући Хадооп, Спарк, Сплунк, како у просторији тако и у облаку. Наш фокус је увек био на производима података, обради података и производима за интеграцију података.
Наша стратегија која се односи на велике податке и Хадооп је стварно постала део екосистема од првог дана. Као власници добављача који су се заиста фокусирали на обраду података веома лаганим моторима, мислили смо да постоји велика могућност да учествујемо у томе да Хадооп постане платформа за обраду података и буде део ове архитектуре складишта података нове генерације организације. Доприноси пројектима отвореног кода Апацхе смо од 2011, почевши од МапРедуце. Били су у првих десет за Хадооп верзију 2, а заправо су учествовали у више пројеката, укључујући пакете Спарк, неки од наших конектора објављени су у пакетима Спарк.
Ми користимо наш врло лаган мотор за обраду података који је у потпуности метаподати засновани на плочама и веома добро се слаже са дистрибуираним системима датотека као што је Хадооп Дистрибутед Филе Систем. И своју баштину користимо на маинфрамеу, своју стручност с алгоритмима док постављамо наше велике податке. И блиско сарађујемо са главним добављачима, главним играчима овде, укључујући Хортонворкс, Цлоудера, МапР, Сплунк. Хортонворкс су недавно најавили да ће наш производ препродавати за ЕТЛ на броду са Хадооп-ом. Са Делл-ом и Цлоудером имамо блиско партнерство које такође продаје наш ЕТЛ производ као део њиховог великог уређаја. А заправо са Сплунк-ом објављујемо телеметрију и сигурносне податке главног рачунара на Сплунк контролним табли. Имамо блиско партнерство.
Шта има на уму сваки извршни директор на нивоу Ц? Заиста је „Како да искористим своје податке?“ Сви причају о великим подацима. Сви причају о Хадоопу, Спарку, следећој рачунарској платформи која ће ми можда помоћи да створим пословну окретност и отворим нове трансформативне апликације. Нове могућности преласка на тржиште. Сваки поједини руководилац размишља: "Шта је моја стратегија података, шта је моја иницијатива за податке и како да осигурам да не останем иза своје конкуренције, а и даље сам на овом тржишту у наредне три године?" то видимо док разговарамо са нашим купцима, као што говоримо са нашом глобалном корисничком базом, која је прилично велика, као што можете да замислите, с обзиром да смо дуго присутни.
Док разговарамо са свим овим организацијама, то такође видимо у технолошком пакету у поремећајима који су се догодили са Хадооп-ом. То је заиста у циљу да се задовољи овај захтев за подацима као имовином. Коришћење свих средстава података које организација има. И видели смо како се архитектура складишта података предузећа развија тако да је Хадооп сада ново средиште модерне архитектуре података. А већина наших купаца, било да се ради о финансијским услугама, било да је то осигурање, телцо малопродаја, иницијативе су обично или пронађемо тај Хадооп као услугу или податке као услугу. Зато што сви покушавају да омогуће доступност података за своје спољне или интерне клијенте. А у неким од организација видимо иницијативе попут скоро тржишта података за своје клијенте.
А један од првих корака који је постигао је стварање креирања средишта података о предузећу. Понекад ће га људи звати податковним језером. Стварање овог предузећа са подацима о предузећу заправо није тако лако као што звучи, јер заиста захтева приступ и прикупљање готово свих података у предузећу. А ти подаци су сада из свих нових извора попут мобилних сензора, као и из застарелих база података, а налазе се у батцх режиму и у стреаминг моду. Интеграција података одувијек је била изазов, међутим, с бројем и разноликошћу извора података и различитим стиловима испоруке, било да се ради о серијском или стреамингом у стварном времену, она је још изазовнија у односу на прије пет година, прије десет година. Понекад то називамо и „Више није ЕТЛ вашег оца.“
Дакле, ми говоримо о различитим изворима података. Како предузећа покушавају да схвате нове податке, податке које прикупљају са мобилних уређаја, било да су сензори произвођача аутомобила или су то подаци о корисницима компаније за мобилне игре, они често морају навести најкритичнија средства података у предузеће, на пример, информације о купцима. Ова најкритичнија имовина података често живи на маинфраме-у. Усклађивање података главног рачунара са тим новим изворима који се појављују, сакупљени у облаку, прикупљени мобилним телефоном, прикупљени на производној линији јапанске компаније за аутомобиле или путем интернета апликација за ствари, морају имати смисла за ове нове податке, референцирајући њихове наслијеђене скупове података. И ти наслијеђени скупови података често су на главном оквиру.
А ако ове компаније нису у стању да то ураде, нису у могућности да се укључе у податке главног рачунара, онда постоји пропуштена прилика. Тада се подаци као услуга или искориштавање свих података о предузећу заправо не користе у најкритичнијим средствима у организацији. Ту је и део телеметрије и безбедносних података, јер поприлично сви подаци о трансакцијама живе на главном рачунару.
Замислите да идете до банкомата, мислим да је један од присутних послао поруку учесницима овде ради заштите банкарског система, када прелазите картицом да су подаци о трансакцијама прилично глобално у главном оквиру. А обезбеђивање и прикупљање података о безбедности и телеметрији из главних оквира и њихово омогућавање путем Сплунк контролних плоча или других, Спарк, СКЛ, постаје критичнији него икад раније, због обима података и разноликости података.
Сет вештина је један од највећих изазова. Будући да с једне стране имате брзо мењајући пакет великих података, не знате који пројекат ће преживети, који пројекат неће преживети, да ли треба да запослим програмере за кошнице или свиње? Да ли треба да улажем у МапРедуце или Спарк? Или следеће, Флинк, неко је рекао. Да ли треба да улажем у неку од ових рачунарских платформи? С једне стране, изазов за екосистем који се брзо мења је изазов, а са друге стране имате ове наслеђене изворе података. Нови сетови вештина заправо не одговарају и могли бисте имати проблема јер се ти ресурси заправо повлаче. Велики је јаз у погледу скупова вештина људи који разумеју оне наслеђене податке и који разумеју све већи технолошки низ.
Други изазов је управљање. Када заиста приступате свим подацима предузећа на платформама, имамо клијенте који су се забринули да „Не желим да се моји подаци прикажу. Не желим да се моји подаци копирају на више места јер желим што више избегавати вишеструких примерака. Желим имати приступ од краја до краја, а да га не слети у средину. “Управљање овим подацима постаје изазов. А други део је да ако приступате подацима који уска грла, ако прикупљате већину својих података у облаку и приступате и референцирате наслеђене податке, пропусност мреже постаје проблем, платформа кластера. Постоји много изазова у погледу постојања ове велике иницијативе података и напредних аналитичких платформи, а опет искориштавања свих података о предузећу.
Синцсорт нуди, названи смо „једноставно најбољи“, не зато што смо једноставно најбољи, већ нас купци заиста сматрају најбољим у приступу и интегрирању података маинфраме-а. Подржавамо све формате података из главног оквира и стављамо их на располагање за анализу великих података. Било да је то на Хадоопу или Спарку или на следећој рачунарској платформи. Зато што наши производи заиста изолирају сложеност рачунарске платформе. Ви као програмер потенцијално развијате лаптоп, фокусирате се на цјевовод за податке и шта су припреме података, кораке за израду ових података за аналитику, за следећу фазу, и узимате исту апликацију у МапРедуце или узимајте то иста апликација око у Спарк-у.
Помагали смо нашим купцима у томе када је ИАРН постала доступна и они су морали да преселе своје апликације из МапРедуце верзије 1 у ИАРН. Помажемо им да раде исто са Апацхе Спарком. Наш производ, ново издање 9, покреће се и са Спарком и испоручује се са динамичном оптимизацијом која ће ове апликације изоловати за будуће рачунарске оквире.
Тако имамо приступ подацима маинфраме-а, било да се ради о ВСАМ датотекама, било да је то ДБ2, било да се ради о телеметријским подацима, попут СМФ записа или Лог4ј или сислогс-а, које је потребно визуализовати кроз Сплунк надзорне плоче. И док то радите, јер организација може искористити своје постојеће инжењере података или ЕТЛ скупове, време развоја знатно се смањује. Заправо код Делл-а и Цлоудере постојао је независни спонзор спонзорисани и тај референтни фокус фокусиран на развојно време које вам је потребно ако радите ручно кодирање или користите друге алате као што је Синцсорт, а било је око 60, 70% смањење у времену развоја. . Преклапање вештина поставља јаз између група, преко хостова датотека, а такође и хостова датотека података у односу на људе.
Обично тим великих података, или тим за унос података или тим који има задатак да развије ове податке као сервисну архитектуру, не мора нужно да разговара са тимом маинфрамеа. Они желе да минимизирају ту интеракцију готово у многим организацијама. Отклањањем тог јаза напредовали смо. А најважнији део је стварно осигурање целог процеса. Јер у предузећу када се бавите овом врстом осетљивих података постоји много захтева.
У високо регулираним индустријама попут осигурања и банкарства наши купци питају, рекли су: „Нудите овај приступ подацима маинфраме-а и то је сјајно. Можете ли ми понудити и да овај запис записа кодиран ЕБЦДИЦ-ом чувам у свом изворном формату да бих могао да испуним своје захтеве за ревизијом? “Тако Хадооп и Апацхе Спарк разумију податке матичних оквира. Можете да чувате податке у оригиналном формату записа, радите рачунарску платформу за обраду и ниво нивоа рачунара, а ако то требате вратити можете показати да се запис није променио, а формат записа није промењен, можете да се придржавате регулаторних захтева .
И већина организација, док стварају чвориште података или језеро података, то такође покушавају да учине једним кликом како би могли да пресликају метаподатке са стотина шема у бази Орацле у табеле кошница или ОРЦ или датотеке паркета постаје неопходно. Испоручујемо алате и пружамо алате како би ово омогућили приступ у једном кораку, аутоматско генерисање послова или кретање података и аутоматски генерисање послова за прављење мапирања података.
Разговарали смо о делу повезивања, сагласности, управљању и обради података. Наши производи су доступни и у просторији и у облаку, што је заиста врло једноставно, јер компаније не морају размишљати о томе шта ће се догодити у наредних годину или две ако одлучим да у потпуности изађем у јавни облак насупрот хибридном окружење, јер се неки кластери могу покретати у претпоставци или у облаку. А наши производи су доступни и на Амазон Маркетплаце-у, на ЕЦ2, Еластиц МапРедуце, као и на Доцкер контејнеру.
Само да завршимо, тако да имамо довољно времена за К&А, заправо се ради о приступу, интегрисању и усклађивању са управљањем подацима, али све то чини једноставнијим. И док ово поједностављујемо, „дизајнирајте једном и инсталирајте било где“ у правом смислу због доприноса отвореног кода, наш производ се покреће изворно у протоку података Хадооп-а, и то изворно помоћу Спарка, који изолира организације од екосистема који се брзо мења. И пружање једног цјевовода за податке, једног интерфејса, и за батцх и за стриминг.
А то такође помаже организацијама да понекад процене ове оквире, јер можда желите да креирате апликације и једноставно покренете МапРедуце насупрот Спарку и уверите се у то, да, Спарк то обећава и пружа сав напредак у итеративним алгоритмима за најбоље машинско учење и апликације за предиктивну аналитику раде са Спарком, могу ли и на овом рачунарском оквиру да радим оптерећења за стриминг и серије? Можете тестирати различите рачунарске платформе помоћу наших производа. А динамична оптимизација без обзира да ли се покрећете на самосталном серверу, на свом лаптопу, у Гоогле Цлоуд-у насупрот Апацхе Спарк-у, је заиста велика понуда за наше купце. И то је заиста управљало изазовима које су имали.
Само ћу покрити једну од студија случаја. Ово је Гуардиан Лифе Инсуранце Цомпани. А Гуардиан-ова иницијатива била је заиста централизација њихових података и стављање на располагање њиховим клијентима, смањење времена за припрему података и рекли су да сви разговарају о припреми података узимајући 80 посто укупног цјевовода за обраду података и рекли су да је у ствари потребно 75 до 80 процената за њих и желели су да смање ту припрему података, време трансформације, време до пласмана пројеката за аналитику. Створите ту агилност док додају нове изворе података. И омогући тај централизовани приступ подацима доступан свим њиховим клијентима.
Њихово решење, укључујући Синцсорт производе, управо сада имају тржиште маркетиншких података компаније Амазон Маркет подржано податковним језером, које је у основи Хадооп, и НоСКЛ базом података. И они користе наше производе да доведу сва средства података у језеро података, укључујући ДБ2 на главном оквиру, укључујући ВСАМ датотеке на главном оквиру и наслеђене изворе података базе података као и нове изворе података. Као резултат тога, они су централизовали средства података за вишекратну употребу која могу бити доступна, доступна и доступна њиховим клијентима. И заиста су у могућности да додају нове изворе података и сервисирају своје клијенте много брже и ефикасније него раније. А аналитичке иницијативе чак и више напредују на предиктивној страни. Па ћу паузирати и надам се да је ово било корисно и ако имате питања за мене о било којој од повезаних тема, молим вас.
Ериц Каванагх: Наравно, и Тенду, само ћу је бацити. Добио сам коментар од публике који је рекао: „Свиђа ми се овај дизајн једном, распоредите било где.“ „Можете ли некако да истражите како је то истина? Мислим, шта сте учинили да омогућите ту врсту окретности и да ли постоји порез? Као, на пример, када говоримо о виртуализацији, увек постоји мало пореза на перформансе. Неки кажу два процента, пет процената 10 процената. Шта сте учинили да бисте једном омогућили дизајн, распоредите било где - како то радите и да ли постоји неки порез повезан с њим у погледу перформанси?
Тенду Иогуртцу: Наравно, хвала. Не, зато што за разлику од неких других произвођача ми заправо не генерирамо кошницу или свињу или неки други код који није својствен нашим моторима. Овде су наши доприноси са отвореним кодом играли огромну улогу, јер сарађујемо са Хадооп добављачима, Цлоудером, Хортонворкс и МапР врло уско и захваљујући нашим изворима отвореног кода, наш мотор се заправо покреће као део протока., као део тока Хадооп, као део Искре.
Што то такође значи, имамо ову динамичку оптимизацију. То је дошло због тога што су купци били изазовни с рачунарским оквирима. Док су кренули у производњу са неким апликацијама, вратили су се и рекли: „Управо стабилизујем свој Хадооп кластер, стабилизујем се на МапРедуце ИАРН верзију 2, МапРедуце верзији 2, а људи причају да је МапРедуце мртав, искре су следећа ствар, а неки људи кажу да ће Флинк бити следећа ствар, како ћу се носити са тим? "
А ти су изазови заиста постали толико очигледни да смо инвестирали у ову динамичку оптимизацију коју називамо интелигентним извршавањем. У време извођења, када посао, када се овај цјевовод података доставља, на основу кластера, било да је то Спарк, било да је то МапРедуце или Линук самостални сервер, ми одлучујемо како да покренемо тај посао, изворно у нашем мотору, као део тога Хадооп или Спарк проток података. Нема режијских трошкова јер се све постиже овом динамичком оптимизацијом коју имамо и све се такође ради јер је наш мотор тако изворно интегрисан због наших отворених извора. Да ли то одговара на ваше питање?
Ериц Каванагх: Да, то је добро. И хтео бих да поставим још једно питање тамо, а онда Дез, можда ћемо и ми повести тебе и Робина. Управо сам добио смешан коментар једног од наших полазника. Прочитаћу га јер је заиста приличан. Он пише: "Чини се да у историји ствари ХОТ" - схвати? Као што је ИоТ - "што више покушавате 'поједноставити' нешто што је стварно сложено, чешће него што је чини се једноставније да то учините, испоручује се више висећег конопа. Размислите о упиту у базу података, експлозији, вишеструким навојем, итд. “Можете ли коментарисати овај парадокс који он помиње? Једноставност насупрот сложености и у основи шта се заправо дешава испод насловница?
Тенду Иогуртцу: Наравно. Мислим да је то врло тачно питање. Кад поједностављујете ствари и радите ове оптимизације, на неки начин испод покривача неко треба да преузме сложеност онога што се мора догодити, зар не? Ако нешто парализујете или ако одлучујете како да покренете одређени посао у односу на оквир рачунара, очигледно је неки део посла који се гура било да је крај корисника, кодирање менија или је на оптимизацији мотора. Део тога је, поједностављивањем корисничког искуства постоји велика корист у погледу могућности употребе скупова вештина који постоје у предузећу.
А тај парадокс можете ублажити, ублажити тај изазов: "Да, али ја немам контролу над свиме што се догађа испод покривача, испод хаубе у том мотору", излажући ствари напреднијим корисницима ако они желите имати такву контролу. Улагањем у неке од ствари које се могу користити. Бити у могућности да понудите више оперативних метаподатака, више оперативних података, као у примеру који је дао овај полазник, за СКЛ упит као и за покретање мотора. Надам се да одговори.
Ериц Каванагх: Да, то звучи добро. Дез, однеси то.
Дез Бланцхфиелд: Стварно ме занима мало више увида у ваш утисак у доприносима отвореног кода и путовању које сте искористили из свог традиционалног, дугогодишњег искуства у маинфраме-у и власничком свету, а затим прелазак на допринос отвореном извору и како се то одвијало. И друга ствар коју желим разумети је поглед који видите да предузећа, не само ИТ одељења, већ и предузећа сада узимају с обзиром на чворишта података или податковна језера као што људи сада кажу и да ли виде овај тренд само једно јединствено, обједињено језеро података или видимо да ли су дистрибуирана језера података и људи користе алате да би их саставили?
Тенду Иогуртцу: Наравно. За прво је то било врло занимљиво путовање, као софтверска компанија власника, једна од првих после ИБМ-а. Међутим, опет, све је почело с нашим купцима еванђелиста који су гледали Хадооп. Имали смо компаније као што су ЦомСцоре, оне су прве прихватиле Хадооп јер су прикупљале дигиталне податке широм света и нису могле да чувају 90 дана података, осим ако нису уложиле кутију за складиштење података у износу од десет милиона долара у своје Животна средина. Почели су да гледају у Хадооп. С тим смо почели и гледање у Хадооп.
И када смо донели одлуку и признали да ће Хадооп заиста бити платформа података за будућност, такође смо схватили да нећемо моћи да играмо представу у овом, успешном игрању у овом случају, осим ако били део екосистема. И блиско смо сарађивали са добављачима Хадооп-а, са Цлоудером, Хортонворкс-ом, МапР-ом, итд. Почели смо заиста разговарати с њима јер партнерство постаје веома важно за потврђивање вредности коју добављач може донети и осигурава да заједнички можемо да кренемо у предузеће и понудити нешто значајније. Захтевало је пуно изградње односа јер нам нису били познати Апацхе пројекти отвореног кода, међутим, имали смо велику подршку ових добављача Хадооп-а, морам рећи.
Започели смо заједно и гледали на чворишту како можемо да донесемо вредност чак и без софтвера власника у простору. То је било важно. Не ради се само о стављању неких АПИ-ја на које ваш производ може да се покреће, већ о моћи да се каже да ћу уложити у то, јер верујем да ће Хадооп бити платформа будућности, па тако и улагањем у изворе које смо желели да направимо сигурни да сазрева и постаје предузеће спремно. Заправо можемо омогућити неке случајеве употребе који нису били доступни пре нашег прилога. То ће имати користи за цео екосистем и та партнерства можемо врло уско развити.
Требало је доста времена. Почели смо са доприносом у 2011. и 2013. години, 21. јануара - сећам се датума јер је тог датума учињен наш највећи допринос што је значило да од тог тренутка можемо да имамо генерално доступне производе - требало је доста времена да се развију ти односи, показују вредност, партнери постају дизајнерски партнери са добављачима и са починиоцима у заједници отвореног кода. Али било је јако забавно. Било нам је врло корисно као компанија да будемо део тог екосистема и развијамо сјајно партнерство.
Друго питање о центру података / језеру података, мислим да када видимо да су ти подаци имплементирани у већини случајева, то би могли бити кластери, физички појединачни или више кластера, али то је више концептуално него постати то једно мјесто за све податке. Пошто у неким организацијама виђамо велике размештања кластера, међутим, они такође имају кластере, на пример, у јавном облаку, јер се неки подаци који се прикупљају из мрежних одсека заиста чувају у облаку. Могућност постојања једног цјевовода за податке којим можете заправо користити обоје, и користити их као јединствено чвориште података, једно језеро података, постаје важно. Не нужно само физичко место, али мислим да ће имати тај центар података и језеро преко кластера, кроз географске прилике и можда у премиси и облаку бити врло критично. Нарочито крећући се напред. Ове године почели смо да виђамо све више и више облачних размештања. То је невероватно. У првој половини ове године до сада смо видели много размештања у облаку.
Ериц Каванагх: У реду, супер. А Робин, имаш ли питања? Знам да нам преостаје још пар минута.
Робин Блоор: У реду, па могу да јој поставим питање. Прво што ми је пало на памет да је било доста узбуђења око Кафке и занимало ме ваше мишљење о Кафки и како се ви интегришете са начином на који људи користе Кафку?
Тенду Иогуртцу: Наравно. Да, Кафка постаје прилично популарна. Међу нашим купцима видимо да је врста слоја за пренос података и увелико гледано да су подаци сабирница. На пример, један од наших купаца је заправо користио својеврсне конзумирајуће податке који су убачени у ову Кафку међу вишеструким, попут хиљада на мрежи корисника и који су у могућности да то класификују и прођу.
Поново, Кафка је сабирница података према различитим потрошачима ових података. Класификујте неке напредне кориснике у односу на не тако напредне кориснике и урадите нешто другачије напредујући у том протоколу података. Како се интегрирамо са Кафком у основи, наш производ ДМКС-х постаје поуздан потрошач, високо ефикасан и поуздан потрошач за Кафка. Може да чита податке и то се не разликује од читања података из било којег другог извора података за нас. Корисницима дајемо могућност контроле прозора било у погледу временског захтјева који имају или броја порука које могу да конзумирају из кафкиног сабирнице. А онда можемо и обогатити те податке јер су то прошли кроз наш производ и гурнути натраг у Кафку. То смо тестирали. Успоредили смо га на локацији корисника. Такође сертификовано од стране Цонфлуент-а. Блиско сарађујемо са момцима из Савеза и врло је перформансиван и једноставан за коришћење. Опет се АПИ-ји мењају, али не морате бринути, јер производ то стварно третира као само још један извор података, извор података који струји. Заправо је забавно радити с нашим производом и Кафком.
Робин Блоор: У реду, имам још једно питање које је само опште пословно питање, али Синцсорт познајем већ дуже време и увек сте имали репутацију и испоручили изузетно брз софтвер за ЕТЛ и маинфраме свет. Да ли је случај да се већина вашег пословања сада преноси у Хадооп? Да ли је случај да сте на овај или онај начин прилично драматично проширили своје пословање из света маинфрамеа?
Тенду Иогуртцу: Наши производи за маинфраме још увијек имају 50 посто маинфрам-ова широм свијета. Дакле, имамо веома јаку линију производа маинфрамеа поред онога што радимо на великим подацима и на Хадооп крају. И још увек смо у већини пројеката за поједностављење или оптимизацију ИТ-а, јер постоји један крај на којем желите да будете у могућности да се доделите својим подацима маинфраме-а на великим Мултек платформама података и искористите све податке о предузећу, међутим постоје и врло критична трансакциона оптерећења. који се и даље приказује на маинфраме-у, а тим купцима нудимо начине како да те апликације заиста учине ефикаснијим, покрећу се у зИИП мотору тако да не троше толико циклуса обраде и МИПС, да би били исплативи.
Ми и даље улажемо у маинфраме производе и заправо се играмо у овом простору гдје људи иду од маинфраме велика гвожђа до великих података и распоређују линију производа такођер на тим платформама. Тако да не морамо преусмерити целокупан посао на једну страну, ми и даље имамо веома успешан посао на обе стране. А аквизиције су велики фокус и за нас. Како се развија простор за управљање подацима и за обраду података за велике платформе података, такође се обавезујемо да ћемо обавити похвале неколико аквизиција.
Робин Блоор: Па, претпостављам да те не могу питати шта они јесу јер ти не би требало да ми кажеш. Занима ме да ли сте видели многе имплементације Хадоопа или Спарка заправо на главном рачунару или је то врло ретка ствар.
Тенду Иогуртцу: Нисмо је видели. Има још питања у вези тога. Мислим да Хадооп на маинфрамеу није имао пуно смисла због врсте језгрене структуре. Међутим, Спарк на маинфрамеу је прилично смислен и Спарк је заиста врло добар са машинским учењем и предиктивном аналитиком и могућности да имамо неке од тих апликација са подацима маинфрамеа заиста мислим да има смисла. Још никога нисмо видели, али стварно је то случај који користи ове ствари. Ако ваш случај коришћења као компаније више доводи те податке главног рачунара и интегришете га са остатком скупова података на великој платформи података, то је једна прича. Потребан је приступ подацима маинфраме-а са платформе Мултек са великим подацима јер мало вероватно ћете донијети своје скупове података из отворених система и позвати их назад у маинфраме. Међутим, ако имате неке податке маинфрамеа које желите само истражити и мало открити откривање података, применити неки напредни АИ и напредну аналитику, онда би Спарк могао бити добар начин да кренете и покренете се на маинфраме.
Ериц Каванагх: И ево још једног питања публике, заправо још два. Ја ћу вам поставити питање тима, а затим ћемо завршити. Један од учесника се пита, „Да ли ИБМ интегрише ваше отворене прилоге у свој екосустав јавног облака, другим речима, Блуемик?“, А други полазник је изнео заиста добру поента, приметивши да је Синцсорт одличан за одржавање великог гвожђа за оне који већ га имате, али ако компаније одустану од нових мејнстфрама у корист онога што он назива ЦЕ, замрзну све, то ће вероватно опадати, али напомиње да сте момци заиста добри у померању података заобилазећи оперативне системе до гигабајта у секунди. Можете ли разговарати о вашој основној снази, као што је напоменуо, и о томе да ли ИБМ интегрише ваше ствари у Блуемик?
Тенду Иогуртцу: Са ИБМ-ом смо већ партнери са ИБМ-ом и разговарали смо о њиховим сервисима података у облаку који нуде производ. Наши прилози отвореног кода отворени су свима који желе да их искористе. Неко од повезивања с главним оквиром доступно је и у пакетима Спарк, па не само у ИБМ-у. Свако их може искористити. У Блуемик-у још нисмо ништа конкретно урадили. И да ли вам смета поновити друго питање?
Ериц Каванагх: Да, друго питање се односило на ваше основно подручје функционалности током година, које је заиста решавало уска грла ЕТЛ-а и очигледно је то нешто што ћете и даље радити као маинфрамес, добро, теоретски се држите подаље, иако Дез'с поента је и даље врста љуљања и ваљања вани. Али присутни су управо приметили да је Синцсорт веома добар у кретању података заобилазећи оперативне системе и до гигабајта у секунди. Можете ли то само да коментаришете?
Тенду Иогуртцу: Да, та укупна ефикасност ресурса је била наша снага, а скалабилност и перформансе су наша снага. Ми не правимо компромисе, поједностављење има много значења, не правимо компромисе са тим. Када су људи, на пример, почели да причају о Хадоопу 2014. године, многе организације у почетку нису баш гледале перформансе. Говорили су: "Ох, ако се нешто догоди могу додати још неколико чворова и биће добро, перформансе нису мој захтев."
Док смо разговарали о најбољим перформансама јер смо већ трчали на локалном нивоу, нисмо имали чак ни неке почетне штуцање које је Хиве имао са више послова МапРедуце и режијским трошковима када их је покренуо. Људи су нам говорили: „Ох, то ме не брине, тренутно не брините о томе.“
Кад смо дошли до 2015. године, пејзаж се променио јер су неки од наших купаца већ премашили складиште које су имали у својим производним кластерима. За њих је постало врло критично да виде шта Синцсорт може да понуди. Ако узимате неке податке из базе података или главног рачунара и пишете у паркетни формат у кластерима, било да слетате и прикажете и урадите још једну трансформацију или само урадите трансформацију лета и формат циљне датотеке за слетање, направили су разлику јер штедите од складиштења, штедите са мрежног пропусног опсега, штедите од оптерећења на кластеру јер не покрећете додатне задатке. Чини се да су оне снаге које играмо у смислу да будемо веома свесне, под њиховом кожом осетимо ефикасност ресурса.
Тако је описујемо. За нас је то критично. Не прихватамо здраво за готово. Никада га нисмо узимали здраво за готово, па ћемо и даље бити јаки с тим полугом у Апацхе Спарку или следећем рачунарском оквиру. То ће и даље бити наш фокус. А што се тиче дела кретања података и дела података, дефинитивно је то једна од наших предности и приступамо ДБ2 или ВСАМ подацима на главним оквирима у контексту Хадооп или Спарк.
Ериц Каванагх: Па, то је сјајан начин да се оконча вебцаст, народе. Хвала вам пуно на вашем времену и пажњи. Захваљујем вама, Тенду и Синцсорт, што сте дошли у редове за састанке и закорачили у круг, како кажу. Пуно сјајних питања публике. Тамо је окружење које се стално креће, људи. Архивират ћемо овај Хот Тецх као и сви други. Можете нас пронаћи на инсидеаналисис.цом и на тецхопедиа.цом. Обично се повећа за око један дан. И с тим ћемо се опростити, људи. Хвала Вам много. Разговараћемо ускоро. Брини се. Ћао.