Big Data в Самарском Аэрокосмическом

Опубликовано: 25.04.2016 16:37 | Автор: Владислав Бояров | Просмотров: 3979

29 марта 2016 года в Самарском Государственном Аэрокосмическом Университете состоялся II семинар-совещание по вопросам интеллектуального анализа и обработки данных сверхбольшого объема Big Data.

Пожалуй, сразу же возникает вопрос о том, что такое сверхбольшой объём и почему данные, превышающие некоторый объём получили специальное название Большие Данные (Big Data). Я пока не встречал исчерпывающего определения, но русская Википедия на первое место ставит не сами данные, а серию специальных подходов, инструментов и методов, которые приходится придумывать в ситуациях, когда «обычные» способы не дают нужных результатов.

Также Вики в качестве определяющих характеристик указывает «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах, как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных). Интересно, что в другом абзаце этой же статьи говорится не о полуструктурированных, а о неструктурированных данных, к тому же термин «полуструктурированных» нигде не расшифровывается.

Казалось бы, с определения «полуопределённого» термина Big Data и надо было начать семинар, однако нечто похожее на теорию прозвучало только в последнем докладе мероприятия, а начался он с выступления директора Лаборатории информационных технологий ОИЯИ (Объединенный институт ядерных исследований), заведующего кафедрой «Распределенные информационно-вычислительные системы» Университета «Дубна», руководителя лаборатории облачных технологий и аналитики больших данных РЭУ им. Г.В. Плеханова профессора Владимира Васильевича Коренькова «Развитие распределённых вычислений и технологий Больших данных в ОИЯИ». Про большой объём, большие скорости поступления и большое разнообразие данных слова звучали, но большие – относительно чего? Когда вместо 40-мегабайтных дисков, являющихся стандартными для 286-х компьютеров, появились диски по триста с лишним мегабайт, они тоже казались всем большими, а некоторые так даже считали их чрезмерно большими – но термин Большие Данные появился только сейчас и хотелось бы понять, чем эти Большие Данные отличаются от просто больших (со строчной буквы).

Доклад изобиловал графиками, демонстрирующими наличие в российских ЦОДах большого количества высокопроизводительных процессоров (надо понимать, американской корпорации Intel). Разумеется, одними процессорами дело не ограничивается, центры обработки данных – это сложнейшая система, которая включает в себя множество компонентов (в частности инженерную часть – питание, охлаждение), без которых бесперебойная работа ЦОДа невозможна. Важную роль играют системы диагностики и резервирования, позволяющие выявлять проблемы на ранних стадиях их возникновения, перенаправлять потоки данных на «здоровые» участки, а в это время устранять неисправности.

Мощная сетевая поддержка позволила создать институту распределённую систему, основанную на облачной архитектуре, с площадками в Москве, Киеве и Баку. Этому не следует удивляться, поскольку ОИЯИ является не российской, а международной межправительственной организацией, полноправными членами которой сегодня являются 18 государств – от (в алфавитном порядке) Азербайджана и Армении до Украины и Чешской республики.

В сумме это выглядит так

Кроме участия в исследованиях, проводимых на Большом адронном коллайдере в ЦЕРНе, ОИЯИ участвует в проекте NICA – российском коллайдере протонов и тяжелых ионов, строящимся в городе Дубна.

Дальше были произнесены странные слова о надёжности и доступности, которая должна быть только 100-процентной, а не сколько-то девяток. Однако по классификации, разработанной Uptime Institute, существуют четыре уровня надёжности ЦОД – от Tier 1 c надёжностью 99,671% до Tier 4 с уровнем 99,995%, а абсолютной, стопроцентной надёжности не бывает.

Было сказано о том, что в качестве платформы ставка делается на PaNDA (Platform for Network Data Analytics), которую, в частности, развивает компания Cisco.

PaNDA - это платформа, обеспечивающая прозрачность процесса хранения, обработки и управления данными для приложений с большими потоками данных и массивными вычислениями. PaNDA развивается в направлении интеграции различных систем распределённых и параллельных вычислений (грид, cloud, кластеры, ЦОД, суперкомпьютеры) с целью создания универсальной платформы для крупных проектов управления большими данными в науке, государственном управлении, медицине, высокотехнологической промышленности, бизнесе. Кроме того, PaNDA служит интерфейсом к коммерческим облакам Amazon, Microsoft Azure и им подобным, что весьма перспективно на сегодняшний день.

В заключение профессор Кореньков сказал, что их институт с советских времён работает по семилетним планам, что вдохновляет коллектив на новые достижения.

Вторым был доклад заместителя директора ИПИ РАН ФИЦ ИУ РАН по научной работе, доктора технических наук, члена-корреспондента Академии криптографии РФ Владимира Игоревича Будзко «Цифровое сельское хозяйство – пример результативности применения технологий Big Data». В качестве примера приводилась Австрия, где плотность населения на порядок превосходит российскую, территория в такой же степени (если не больше) обустроена и, по сути, выжимаются остатки возможностей её плодородия.

А далее – опять ностальгия по советским временам, когда всё было правильно, цвело и колосилось.

Общие фразы примерно оттуда же, что «Информация – основа принятия решения», «Данные могут формироваться различными источниками», а «Шум – отношение количества нерелевантных информационной потребности данных к общему количеству отобранных данных».

Честно говоря, я бы удивился, если бы в этом докладе не прозвучало заветное слово «Госплан» – потому что как же с ним было удобно тем, кто умел получать от него финансирование! Вот уж где точно были большие данные: ведь в советские времена всерьёз мечтали о том, чтобы заложить в ЭВМ все данные, до последнего гвоздя, и чтобы умная машина определила каждому что делать, и от него требовалось бы только выполнить команду. Осталось вспомнить карикатуру перестроечных времён, как сидят на паперти Маркс, Энгельс и Ленин, и один другому говорит: «Но ведь теория была верна!».

Технический директор компании «ЕС-Лизинг», профессор Высшей школы экономики Борис Аронович Позин сделал доклад об опыте подготовки специалистов в области Больших Данных. Основная мысль: учить специалистов в области Data Science необходимо на основе реальных задач обработки Больших Данных, которые специально адаптированы для целей обучения. В МИЭМе разработан набор таких задач.

В докладе он упомянул письмо академика Дородницына в ЦК КПСС, в котором тот якобы жалуется на недостаточное количество программистов. Мне не удалось найти в интернете это письмо, однако в моём личном архиве сохранился доклад, который я делал на КСПО в 1987 году (за точность цитаты ручаюсь): «У нас нередко жалуются на неэффективность использования вычислительной техники. Как правило, вина сваливается на недостаточность программного обеспечения. Но если проанализировать ситуацию, то обнаруживается, что причина причин кроется в отсутствии алгоритмического обеспечения. При наличии алгоритмов разработка программ – это уже вопрос времени, но без алгоритмов сдвинуться с места вообще нельзя».

Формализованным алгоритмам предшествует постановка задачи, постановке – общее целеполагание. Какие же главные цели видит профессор Позин? Да вот они – не дать врагам завладеть нашим сознанием, поставить барьер на пути проникновения вражеского продукта в нашу страну. Вопрос-предостережение в зал: «Какие мультики смотрят ваши дети – русские или иностранные?».

Особенно впечатляют комментарии к слайду:

IBM объявила о создании такого милого существа в интернете, которое умеет разговаривать с детьми в интернете, играть с ними в игры…

Какая чУдная инициатива!!! Мы уже не понимаем новых героев детских сказок: мультики не наши, менталитет детей и внуков уже изменен.

Нам мало этих грабель?

Нам очень понятна обеспокоенность древних китайцев. Но у них были методы противодействия и борьбы. У нас их нет. И что делать для сохранения для государства новых поколений его жителей, мы не знаем.

В 1992 г. канадцы предложили программу обучения для Украины. По результатам – очень удачную. Дети с 5 до 15 лет там уже другие!!! За 25 лет поменяли мозги гражданам!!! Вас это не убеждает?

Государство должно осознать, что ЭТО УГРОЖАЕТ ЕГО СУЩЕСТВОВАНИЮ!!! Необходим проект противодействия этому, замещения такого импорта для сохранения национальной идентичности поколений граждан!!! По масштабам это должен быть проект уровня атомного или космического!!! Это важнейшая государственная задача!!!

Видит бог, не я затронул в этом материале украинскую тему. Но главное даже не в этом. Если бы советская ИТ-индустрия победила в борьбе за мировой рынок и показала наилучшие результаты, тогда справедливо звучали бы слова и про Госплан, и про всё остальное. А раз впереди оказались США с их подходом к экономике, науке и политической свободе – чего же после драки кулаками махать? Сотрудничайте, учитесь, задумайтесь, в конце концов, что не так делали, если СССР в финале рухнул.

Представитель ООО «Открытый код» Михаил Андреев рассказал об опыте обработки данных в решениях для Российских предприятий на примере Почты России. Запомнилось заявление об успешном решении задачи коммивояжёра – построение оптимального маршрута для почтальона.

Пожалуй, самые горячие дискуссии вызвал доклад другого представителя компании «Открытый код» – Дмитрия Мартышкина «Обработка данных в решениях для сферы здравоохранения и социальной защиты населения». Во-первых, постановкой задачи. Дело в том, что вся эта работа с большими данными, оказывается, затеяна не для того, чтобы вовремя увидеть опасные изменения в организме и сказать, что ему срочно надо бежать за медицинской помощью. Нет, задача сужена почти до математической точки: диагностировать одно единственное заболевание – рак лёгких. Будто, если его настигнет другая смертельная болезнь, диагностировать которую можно точно так же, что-то принципиально изменится в его судьбе. Здесь же следует вспомнить одну из заповедей Гиппократа: «Врач должен лечить не болезнь, а больного». Так вышло, что тот мой доклад на КСПО 1987 года, где упоминались слова академика Дородницына, был как раз на эту тему. На тот момент АСУП для каждой новой задачи собирал (тогда приходилось набивать руками – благо, девочек-операторов ЭВМ было много) отдельный массив значений. Я же предлагал идти не от задачи, а от данных: с единой базы, включающей составы изделий и сведения о каждом компоненте, получать конструкторские спецификации, ведомости покупных, технологии, сменно-суточные задания и все остальные заводские документы.

Во-вторых, способом получения данных. В медицине, как и везде, важна полнота и динамика параметров. Если наблюдается постоянная корреляция между сахаром в крови и давлением (взял наобум – не медик, не судите строго), то логично было бы предположить, что давление зависит от сахара, и при повышении давления надо отрегулировать сахар. Но как увидеть эту корреляцию, если человек проходит обследование в различных учреждениях (для получения ВУ в одном месте, при лечении зубов в другом) и эти данные не стекаются в единую базу Минздрава РФ? На мой вопрос о способе доступа к медицинским данным автор доклада вместо центральной базы предложил медицинским учреждениям обмениваться данными между собой, каждый с каждым. На мой взгляд, это даже не то, чтобы дорого, а просто нереально – ведь получается, что каждому стоматологическому кабинету надо иметь полную базу граждан РФ, а при обследовании пациента рассылать результаты по всем медицинским учреждениям нашей страны.

А тут ещё и знаменитый закон о персональных данных, надёжно защищающих граждан РФ от качественного медицинского обслуживания. По этому закону гражданин может разрешить обработку его ПД только конкретному юридическому лицу, а неопределённому кругу лиц – не может. Поэтому в принципе нельзя создать систему, ведущую обработку медицинских параметров со сбором данных по всем медучреждениям.

И в довершение всего нашим государством никак не решена проблема идентификации граждан. Каждая служба присваивает собственный код (ИНН, СНИЛС, ОМС), причём, только после первого обращения, а единый идентификатор, присваиваемый при рождении (точнее, регистрации рождения в ЗАГСе) на всю жизнь и обязательный для всех служб отсутствует. В качестве костыля разработчики используют 7 параметров личности (ФИО, дату рождения и пр.), которые при большой суммарной длине всё равно не гарантируют уникальности.

Получается, что получить госзаказ и потренироваться с большими данными можно, можно даже отчитаться об импортозамещении (конечно, если до этого использовался импортный софт, который заместили своим), а решить задачу медицинского мониторинга граждан – нет.

Ещё одна дискуссия разгорелась после доклада Максима Гармаша «Масштабируемая система подготовки Big Data специалистов».

Всё правильно: в медицине и образовании все сильны, и у каждого есть своё мнение – это вам не ускоритель элементарных частиц. Но главная претензия из зала меня откровенно повеселила: зачем частная компания занимается тем, чем должны заниматься специализированные образовательные учреждения, почему она не подарит свои наработки им? Живо вспомнилась ситуация, как мы в бюро гидрооборудования с привлечением знакомых программистов разработали первую на заводе действующую программу автоматизированного проектирования, и как начальник отдела САПР на совещаниях требовал, чтобы мы эту программу передали ему, потому что у него работают специалисты, а мы дилетанты и самозванцы.

Наиболее технический доклад, основанный на реально функционирующих системах, прочитал выпускник СГАУ технический директор американской компании Nominum Юрий Юзифович. Nominum занимается разработкой DNS-серверов и является второй в мире компанией по количеству установленных продуктов. Через DNS-серверы Nominum проходит треть от общего числа транзакций, что составляет 100 миллиардов транзакций в день общим объёмом 7 ТБ. При этом серверы Nominum в отличие от конкурентов предоставляют своим пользователям множество дополнительных услуг, связанных с безопасностью и оптимизацией трафика.

Столь большие объёмы невозможно обработать на одном сервере, поэтому компания Nominum вынуждена применять методы, обычно используемые при обработке больших данных, и в первую очередь Hadoop. Однако Hadoop при всех его достоинствах не приспособлен для обработки данных в условиях, близких к реальному времени. Поэтому сейчас компания переводит свои сервисы в облака Amazon. Что же касается собственного оборудования, то здесь уже давно взят курс на отказ от брендовых серверов в пользу «noname» – они несколько уступают в производительности на один процессор, зато превосходят брендовые в производительности на один доллар своей стоимости. Также предпочтение отдаётся бесплатному софту: Юрий утверждал, что при фермах серверов такого размера никаких денег не хватит на оплату лицензий.

Однако прототипирование проводится на мощном двухпроцессорном сервере с 0,5 ТБ оперативной памяти, поскольку вести его на кластере нецелесообразно.

Для работы с этими системами потребовались специалисты новой профессии, которую сейчас называют DevOps – программист и администратор в одном лице.

Также Юрий затронул тему интернета вещей (IoT), в первую очередь, безопасность, которая обещает стать проблемой в скором будущем. Уже были случае DDoS-атак со стороны заражённых камер слежения и других устройств, имеющих выход в интернет.

Не секрет, что почти всё компьютерное оборудование, начиная от ноутбуков и заканчивая суперкомпьютерами, создано на платформе Intel. Процессоры Intel проникли также в мощные коммутаторы, планшеты и смартфоны. 29 марта Самарский государственный аэрокосмический университет имени академика С.П. Королёва (СГАУ) и один из мировых лидеров IT-индустрии - американская корпорация Intel, подписали соглашение о намерениях развивать сотрудничество в образовательной и научной сферах (Memorandum of Understanding). Подписание соглашения состоялось в рамках визита в СГАУ директора по развитию бизнеса программных продуктов и сервисов в России и СНГ Intel Corporation Александра Авдеева. Мы познакомились с Александром во время конференции по суперкомпьютерам в Новосибирске, с тех пор неоднократно встречались, я надеялся и в этот раз взять интервью – к сожалению, не получилось, график у г-на Авдеева был слишком напряжённым.

Александр напомнил о том, что корпорация Intel является одной из крупнейших софтверных фирм в мире: в этом подразделении работают более 15 тысяч сотрудников, из них более 700 в российских подразделениях. И вообще Intel поистине интернациональная корпорация: из 107 тысяч её сотрудников 75% не являются гражданами США. Значительный объём работ по программированию выполняется для серверов и суперкомпьютеров, способных обрабатывать большие данные. Это Intel MKL, Intel DAAL, Intel Parallel Studio и многие другие.

Завершил семинар-совещание доклад д.т.н. Сергея Борисовича Попова «Применение технологий обработки больших данных в задачах дистанционного зондирования Земли».

Как я уже упомянул в начале материала, свой доклад Сергей начала с определения Больших Данных.

К классическим Volume-Velocity-Variety (объём-скорость-разнообразие) добавлены ещё два: Veracity и Value – достоверность и ценность.

Но главное – потребность в новых технологиях обработки, поскольку традиционные здесь уже не работают. Особенность – в произвольных запросах, под которые структура данных не заточена, и которые, тем не менее, надо выполнять достаточно быстро.

Немногим больше десятка спутников генерируют по 2 ТБ данных в день, что составляет около 0,5 ПБ в год. В настоящее время только в рамках одного проекта изучения климатических изменений системы хранения NASA имеют суммарный объём 37 ПБ, 32 ПБ из которых уже заполнены. Десятки петабайт – это уже точно Большие Данные. Однако простое использование технологий Больших Данных для обработки данных дистанционного зондирования Земли сопряжено со значительными трудностями, поскольку данные технологии создавались для переработки, в первую очередь, текстовой информации. Необходимо разработать новые и адаптировать традиционные методы обработки спутниковой информации под специфику работы с большими данными и новые технологии их хранения.

Конечно, системы хранения СГАУ имеют не столь большие объёмы хранения, как NASA. Тем не менее, СГАУ, как научная и учебная организация, должен уметь работать с Большими Данными и готовить специалистов, обладающих необходимой для этого квалификацией. Для решения таких задач создана Лаборатория обработки данных сверхбольшого объёма. Исследования выполняются на кластере IBM InfoSphere BigInsights из 5 серверов IBM System X и IBM Puredata for Analytics (Netezza). Разумеется, на процессорах Intel Xeon.

Семинар, состоявшийся в СГАУ, показал, насколько многогранна проблема Больших Данных (Big Data) и сколько всего надо соединить для решения этих задач. Здесь и аппаратные средства, и специализированное ПО, и обучение, и оптимизация выполнения на различных процессорных платформах. И главное – что без тесного международного сотрудничества и контактов с лидерами мирового ИТ-рынка, прогресс в этой области невозможен.

На этом тема Больших Данных в Самарском университете не закончилась. Через день, 31 марта 2016 года в медиацентре (15 корпусе) прошло мероприятие с солидным названием The True Positive Conference.