Що таке Kagglе та чи варто витрачати на нього час?

  • 1 июля, 12:41
  • 5472
  • 0

Автор матеріалу: Serhii Tiurin, Data Science UA 

Як ви вже напевно чули, Kaggle - це платформа для змагань з Data Science.Що таке Kagglе та чи варто витрачати на нього час?

Загальна концепція виглядає таким чином:

  1. Учасникам надається два набори даних. Тренувальний - для якого відома цільова змінна (target), та тестовий - за яким потрібно зробити прогноз.
  2. Завдання учасників - створити модель, яка, будучи навчена на тренувальній частині даних, видасть максимальний результат на тестовій.
  3. Але, потрібно врахувати один цікавий момент. Учаснику говорять результат не по всій базі, а тільки її частини (зазвичай 50%), це public leaderboard, який відкритий для всіх в процесі змагання.
  4. Після закінчення змагання підраховується метрика для решти тестового датасета - private leaderboard. По ньому вже формуються остаточні місця.

Для серйозних дядьків з університетів і стронг сеньйорів це можливість поборотися за призовий фонд і місце в світовому рейтингу.

Для початківців, це можливість отримати досвід, схожий з реальним, і прокачати себе в різних сферах.

Адже найважливіше питання, яке частенько стоїть перед такого роду фахівцями - де знайти реальні завдання? Як зрозуміти що краще в якій ситуації і де протестувати гіпотези? 

Коротка інструкція як почати:
1. Вибрати змагання з поміткою "Getting Started".
2. Прочитати опис завдання.
3. Дослідити метрику.
4. Дослідити дані (EDA).
5. Зробити бейзлайн рішення (підглядаючи у Kernels).
6. Вигадувати і пробувати різні гіпотези для поліпшення результату (ідеї можна пошукати в Kernels та Discussion)

На мій погляд, у Kaggle є одна незаперечна перевага в контексті вивчення чогось нового в порівнянні з курсами. Як правило, в курсах дуже абстрактні завдання і не завжди зрозуміти навіщо це вчити, і як саме в подальшому, використовувати на практиці.
У змаганнях такої проблеми немає. Скопіював алгоритм, хочеш поліпшити - доведеться розібратися як він працює і за що відповідають гіперпараметри. Хочеш зробити нові ознаки(features)? Необхідно читати про доменну сферу і детально дивитися ті дані, які є.

Декілька лінків по темі:
https://habr.com/ru/company/yandex/blog/426889/- Как участвовать в соревнованиях по машинному обучению.
https://habr.com/ru/company/ods/blog/426227/ - Как правильно фармить Kaggle.
http://blog.kaggle.com/…/profiling-top-kagglers-bestfittin…/ - Интервью с bestfitting, #1 в мире.



0 комментариев
Сортировка:
Добавить комментарий

IT Новости

Смотреть все