Автор матеріалу: Serhii Tiurin, Data Science UA
Як ви вже напевно чули, Kaggle - це платформа для змагань з Data Science.
Загальна концепція виглядає таким чином:
- Учасникам надається два набори даних. Тренувальний - для якого відома цільова змінна (target), та тестовий - за яким потрібно зробити прогноз.
- Завдання учасників - створити модель, яка, будучи навчена на тренувальній частині даних, видасть максимальний результат на тестовій.
- Але, потрібно врахувати один цікавий момент. Учаснику говорять результат не по всій базі, а тільки її частини (зазвичай 50%), це public leaderboard, який відкритий для всіх в процесі змагання.
- Після закінчення змагання підраховується метрика для решти тестового датасета - private leaderboard. По ньому вже формуються остаточні місця.
Для серйозних дядьків з університетів і стронг сеньйорів це можливість поборотися за призовий фонд і місце в світовому рейтингу.
Для початківців, це можливість отримати досвід, схожий з реальним, і прокачати себе в різних сферах.
Адже найважливіше питання, яке частенько стоїть перед такого роду фахівцями - де знайти реальні завдання? Як зрозуміти що краще в якій ситуації і де протестувати гіпотези?
Коротка інструкція як почати:
1. Вибрати змагання з поміткою "Getting Started".
2. Прочитати опис завдання.
3. Дослідити метрику.
4. Дослідити дані (EDA).
5. Зробити бейзлайн рішення (підглядаючи у Kernels).
6. Вигадувати і пробувати різні гіпотези для поліпшення результату (ідеї можна пошукати в Kernels та Discussion)
На мій погляд, у Kaggle є одна незаперечна перевага в контексті вивчення чогось нового в порівнянні з курсами. Як правило, в курсах дуже абстрактні завдання і не завжди зрозуміти навіщо це вчити, і як саме в подальшому, використовувати на практиці.
У змаганнях такої проблеми немає. Скопіював алгоритм, хочеш поліпшити - доведеться розібратися як він працює і за що відповідають гіперпараметри. Хочеш зробити нові ознаки(features)? Необхідно читати про доменну сферу і детально дивитися ті дані, які є.
Декілька лінків по темі:
https://habr.com/ru/company/yandex/blog/426889/- Как участвовать в соревнованиях по машинному обучению.
https://habr.com/ru/company/ods/blog/426227/ - Как правильно фармить Kaggle.
http://blog.kaggle.com/…/profiling-top-kagglers-bestfittin…/ - Интервью с bestfitting, #1 в мире.
0 комментариев
Добавить комментарий