Сайєнтист – не сайєнтолог: як опанувати найперспективнішу професію для роботи з великими даними

  • 17 октября, 12:22
  • 3212
  • 0

Data scientist – одна з найгарячіших IT-професій нашого часу. Зарплати за верхньою планкою, перегрітий ринок вакансій і поки ще незначна конкуренція при великому виборі напрямків. Чи це ж не мрія для початківця-здобувача? У спецпроекті Big Data School розбираються з тим, наскільки легко стати дата-сайентистом студенту, IT-фахівцю середнього рівня або професіоналу з суміжних сфер. А також – чим доведеться займатися й які базові навички потрібні кандидату.

Сайєнтист – не сайєнтолог: як опанувати найперспективнішу професію для роботи з великими даними

Логіка – передусім

Хоча робота з великими даними – це багато в чому математика, ґрунтовні знання з цього предмета необов'язкові для здобувачів. Як розповіли на мітапі для майбутніх студентів ментори Big Data School, перш за все важлива мотивація. Не до грошей, тому що саме це зазвичай спонукає тих, хто вирішив переключитися на дата-сайєнс, а до вивчення предмета. Без цього буде складно, а результат, швидше за все, буде посередній. Мотиваційний лист – це те, з чого починається подача заявки на курс, і саме на нього будуть дивитися з особливою увагою.

Якщо говорити про конкретні навички, то, з досвіду Миколи Микитенка – випускника третього набору Big Data School, потрібно або бути сильним у вищій математиці, або відмінно розбиратися в логіці. Тобто або знати формулу, або розуміти, як йти до потрібного результату.

Бекґраунд Микитенка – робота з аналітичними інструментами (BI), базами даних і використання мов SQL. На його думку, коли з перерахованим вище все нормально, то для опанування нової професії буде досить навіть вміння програмувати на початковому рівні. «Якщо людина знає основи хоча б однієї мови, вона зможе інтерпретувати будь-яку. Я писав вступне завдання на R, далі практикував у навчанні Python. Без проблем переключився з однієї мови на іншу», – розповідає він.

Микитенко говорить, що йшов до Big Data School, усвідомлюючи прогалини у знаннях Machine Learning. Свій рівень оцінював на 20%, школа додала ще 20-30% до рівня впевненого володіння в предметній галузі. Але головне, що дала школа, за його словами, – напрямок для розвитку, розуміння, що конкретно треба вивчати, щоб стати профі. «Саме правильний вектор для подальшого поглиблення знань у роботі з великими даними в Україні більше взяти особливо немає де», – впевнений він.

У процесі відбору студентів до Big Data School ментори дивляться насамперед на мотивацію претендентів. Тому подавачеві заявки варто приділити велику увагу мотиваційному листу.

Перш ніж вступити до Big Data School Микитенко працював у банківській сфері, де також займався аналітикою. Говорить, що вміння аналізувати – третя базова складова успіху в поводженні з великими даними та алгоритмами машинного навчання. Отримані знання вже дозволили випускнику здійснити великий «стрибок» у робочому проекті, пов'язаному з клієнтською заборгованістю з кредитування.

Наприклад, контакт-центр банку обдзвонює клієнтів із заборгованостями за кредити. Великі дані допомагають обчислити, кому варто зателефонувати та нагадати, а хто скоро сам поверне заборгованість. А також дають можливість знаходити оптимальний баланс між прибутковістю та витратою ресурсів. Хороша модель дозволяє прогнозувати ймовірність повернення кредиту з точністю до 90%, а завдяки грамотному розподілу навантаження можна економити робочу силу: якщо при «сліпому продзвоні» банку доведеться задіяти 100 операторів, то з грамотно прописаним алгоритмом з обробки великих даних можна знизити ресурс і до 10-20%.

Водночас важливо розуміти, які дані мають цінність, стежити за їхньою актуальністю (наприклад, платіж за кредит на 900 грн зараз і шість років тому – не одне й те саме) та впливом на результат роботи моделі. У моделі зі свідомого повернення заборгованості, наприклад, виявилося, що зовсім не важливо чим займається клієнт або розмір простроченої заборгованості, а ось більш зрілий вік і володіння нерухомістю характеризують позичальника як більш надійного.

В той самий час дуже багато проектів у сфері роботи з великими даними так і не реалізуються. Зазвичай це відбувається тому, що, як з'ясовується, користь для бізнесу – мінімальна, бізнес або не знає, що насправді йому потрібно, або не відчув результату, або йому не змогли цей результат правильно презентувати. На думку Микитенка, досвід навчання на реальних кейсах у Big Data School дозволяє краще зрозуміти, що потрібно сьогоднішнім підприємцям.

Чим займаються дата-сайєнтисти?

На роботу з даними дата-сайентисти витрачають 80% часу, з яких тільки 20% – безпосередньо на збір, і близько 60% – на «очищення», – розповідає Данило Анцибор, випускник Big Data School 2.0. Він займається проектами у сфері customer success. Обробка великих даних дозволяє вивчати потреби, побажання, звички клієнтів і робити їх щасливими, зупиняючи відтік – і тим самим підвищуючи дохід бізнесу.

Розвиток NLP (natural language processing – обробка природної мови) використовується як у бізнесі, так і в соціальних проектах. Наприклад, у одного з випускників Big Data School є проект, пов'язаний з розпізнаванням назви товарів від різних постачальників. Виявилося, що люди називають одні й ті ж речі по-різному. Алгоритм здатний звести все в одну систему назв і таким чином спростити прогнозування попиту та закупівлі товарів.

У світі є кейси, де мовна технологія NLP використовується для виявлення дітей, схильних до злочинів у майбутньому, або людей, які знаходяться на межі самогубства.

Але це тільки один із можливих напрямків. У багатьох країнах великі дані вже зараз широко застосовуються для вирішення серйозних завдань державного масштабу.

Так, у Норвегії 18 000 осіб щорічно гине від пожеж. Країна почала використовувати камери відеоспостереження і зібрані з їхньою допомогою дані, щоб визначати пожежу за межами приміщень, де стоять звичайні датчики. Наприклад, якщо на вулиці горить автомобіль, нейронні мережі розпізнають і класифікують об`єкт займання. На пульт служби швидкого реагування надходить інформація не тільки про сам факт пожежі, але і про те, як змінюється «поведінка» вогню, чи постраждали люди, як можна їх евакуювати та т. і.

У Південній Кореї завдяки логам з телефонів відбувається оптимізація транспортної системи. Влада вивчила дані про те, як люди пересуваються містом, і відповідно до цього змінила маршрути, графік руху транспорту і таке інше.

Джерело: mind.ua


0 комментариев
Сортировка:
Добавить комментарий

IT Новости

Смотреть все