Евгений Смертенко более 10 лет работал в различных научно-исследовательских подразделениях Министерства обороны Украины, Институте проблем регистрации информации НАН Украины, научно-исследовательском институте радиолокационных систем «Квант-Радиолокация». Основным направлением была разработка систем обработки радиолокационной информации для задач ПВО.
С 2012 года перешел в коммерческий IT-бизнес. Четыре года проработал в израильской компании ClickmeIn на различных должностях — затем были проекты в рамках компаний Ciklum и Luxoft, которые входят в десятку крупнейших IT-компаний Украины. Создавал решения исключительно на иностранный рынок — Израиль, США, Западная Европа. Суть проектов заключалась в сборе, обработке и моделировании данных.
Чем занимается data engineer
В любом проекте есть свои сложности. Сначала определяется целевая задача и наличие данных для ее решения. Затем анализируют, каких данных и в каком объеме не хватает. Это и есть отправная точка для формирования конвейера сбора и обработки данных. Причем архитектура такого конвейера постоянно меняется.
«Важно чувствовать грань между идеальным зрелым решением и простым прототипом. Часто инженеры сталкиваются с нецелесообразностью того или иного технического решения. Это тоже результат. Результат, позволяющий обоснованно сориентироваться и пойти дальше, не зайти в технологический тупик в будущем. И в таких условиях нужно двигаться дальше, ведь потом разработанное решение будет потреблять огромные объемы данных, а обработать их заново — не всегда реализуемо», — говорит Смертенко.
Решение подобных задач возлагается на команду инженеров данных (Data Engineering Team). В ее состав входят несколько инженеров с навыками разработки ПО, глубоким пониманием концепции распределенных вычислений, SQL, администрирования, Cloud Computing платформ.
И здесь важно обладать практическим опытом использования тех или иных инструментов и систем — Hadoop, Spark, Flink, YARN, Mesos, ZooKeeper, Kafka, Pulsar, Hive, Presto, HBase, Cassandra и т.д. Естественно, не каждый участник команды должен знать все. На первый план выходит синергетический эффект ее представителей.
Важно управлять ожиданиями клиента — все ведь хотят, как можно проще, эффективнее и быстрее.
«Нужно понимать и чувствовать технический компромисс. Обработка данных определяется той логикой, которая закладывается в решение конкретной задачи. Поэтому ключевое отличие инженеров данных от обычных разработчиков баз данных в том, что при большом разнообразии данных нет привязки к конкретной структуре. Структура появляется при решении конкретной задачи», — объясняет Евгений.
Одним из проектов, в котором Евгений принимал участие, предусматривал разработку и внедрение аналитической системы оценки инвестиционной привлекательности IT-компаний и стартапов. Данные собирались через различные API, применялась многоуровневая обработка. При этом использовалось огромное множество структур. Модели, формирующей рейтинг инвестиционной привлекательности, подавался набор данных о более чем 6 млн. компаний с достаточно большим перечнем характеристик (порядка 600 параметров): количество сотрудников, динамика роста за последние полгода, инвестиции, участие в конференциях, публикации, индексы цитируемости и т.д. Кроме того, модель оценки постоянно эволюционировала, что в результате приводило к изменению требований как к структуре исходных данных, так и к их обработке.
По его словам, сейчас многим клиентам интересна разработка и внедрение аналитических платформ, включающих извлечение дополнительной ценности из данных на основе аналитических моделей: Machine Learning & Deep Learning. Ответственные за такие модели другие инженеры — data scientists.
«Встречаются разные ситуации, когда команды data science работают независимо от инженеров данных или когда инженеры данных выполняют задачи моделирования и т.д. Однако общепризнанным является факт органичного объединения в рамках одной команды data engineers & data scientists, где вся команда работает на один результат. В таких командах с одной стороны каждый является автономным инженером, с другой — отличным командным игроком. Подобный подход является одним из ключевых составляющих успешности разработки и внедрения проектов Big Data», — объясняет Евгений.
Почему решил работать в украинской компании
Больше месяца Евгений работает в энергетической компании ДТЭК на позиции Senior Data Architect. Говорит, осознанно сменил привычный IT-аутстафинг на украинскую компанию, создающую продукты для внутреннего рынка. В ДТЭК запустили программу цифровой трансформации MODUS и намерены инвестировать 350 млн гривен в 2019 году в работу с данными разных направлений — от производства и поставки электроэнергии до управления персоналом. Поэтому появился интерес.
«В Украине есть ряд крупных компаний, ориентированных, прежде всего, на внутреннего потребителя и формирующие экспертизу Big Data. Среди них и ДТЭК»
ДТЭК — большая энергетическая компания, включающая тепловые электростанции, возобновляемые источники энергии, шахты, сети и т. д. Недавно компания приступила к реализации стратегической программы цифровой трансформации бизнеса, которая охватит все основные производственные и административные. Так, вся огромная инфраструктура подлежит трансформации с точки зрения сбора, обработки и консолидации данных.
Одним из направлений является разработка и внедрение комплексной системы мониторинга и прогнозирования (поломок, эффективности и т.д.). Здесь и масштабность решаемых задач, и интернет вещей (IoT) и возможность воплотить в жизнь любые (даже самые фантастические) идеи. Это и есть дух стартапа, для этого формируется команда Экспертного центра цифровых технологий (ЭЦЦТ) — R&D team (НИОКР). Иными словами крупный украинский бизнес готов на равных конкурировать за IT-специалистов, в том числе в области Big Data», — рассказывает Евгений.
«К тому же, засиживаться на одном месте любому data engineer неинтересно. Хочется чего-то нового, но в рамках одного проекта это не всегда возможно», — добавляет он.
Как устроена работа в энергетической компании
«В данный момент мы готовимся к первичному прототипированию системы мониторинга ветровых и солнечных электростанций на основе Amazon Web Services и Microsoft Azure (в перспективе Google Cloud Platform). Так сможем реально оценить качество решений, предлагаемых поставщиками облачных сервисов, в том числе Edge Computing», — объясняет он. Это не совсем классический на сегодня IoT-проект, поскольку предусматривает взаимодействие с системами АСУТП (SCADA).
Команда ЭЦЦТ ДТЭК работает в новом корпусе инновационного парка UNIT.City. Жесткой привязки ко времени и локации нет — иногда работа может быть удаленной. Главное — результат.
«Помещение, офис — это здорово, но для меня — вторично. Основная причина, почему я работаю здесь, — масштабность и готовность бизнеса к трансформации. К тому же, это фактически проект с нуля: есть возможность проявить себя в нужном направлении. Структура команд позволяет быстро вырасти в профессиональном плане», — говорит Евгений.
Сейчас в ЭЦЦТ ДТЭК продолжается набор специалистов. Среди задач:
- разработка и внедрение решений в области роботизации и автоматизации;
- построение Data Lake;
- разработка и внедрение аналитических платформ с использованием моделирования (MD & DL);
- настройка цифровых процессов.
В работе используется ряд платформ облачных вычислений (Compute Cloud Platform) — Amazon Web Services, Microsoft Azure, Google Cloud Platform.
Источник: ain.ua
0 комментариев
Добавить комментарий