25 корисних Data Science інструментів

17 января, 15:41
6255
0

Список безкоштовних інструментів і бібліотек для аналітиків даних. Заслуговують на увагу пакети, програми та ресурси, про які не так часто згадують, як про NumPy, Pandas або Jupyter.

Нижче представлений стислий огляд 25 інструментів для найрізноманітніших задач науки про дані. Швидкий скрапінг веб-сторінок і візуалізація, аналіз поведінки клієнтів і безпечне зберігання ключів, робота в команді і розгортання моделей на хмарних GPU.

Огляд DS інструментів:

Airtable: електронна таблиця з потужністю бази даних, альтернатива Google Sheets або Microsoft Excel. Відмінно працює з Pandas, завдяки Python API. Те що потрібно для демонстрації результатів.

25 корисних Data Science інструментів

Orange: open source платформа, заточена під машинне навчання і візуалізацію даних, для якої не потрібно вміти кодувати. Якісна альтернатива Tableau або Power BI.
MarkDown: додаток для нотаток на Node.js, повноцінно працює в офлайні з можливістю розміщення на своєму сервері.
Deepnote: додаток на базі Jupyter Notebook, створений для спільної роботи в реальному часі.
Dash by Plotly: JavaScript інструмент візуалізації даних з відкритим вихідним кодом. Запустіть готову модель на Python або R, а Dash подбає про решту. Ідеально підходить для створення дрібних веб-додатків для показу клієнтові.
KeeWeb: засіб для безпечного зберігання API-ключів і паролів.
MLxtend (скор. Від Machine Learning Extensions) - бібліотека Python інструментів для повсякденних завдань обробки даних. Творець - автор книги «Машинне навчання на Python» Себастьян Рашка.

import numpy as np import matplotlib.pyplot as plt import matplotlib.gridspec as gridspec import itertools from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC from sklearn.ensemble import RandomForestClassifier from mlxtend.classifier import EnsembleVoteClassifier from mlxtend.data import iris_data from mlxtend.plotting import plot_decision_regions # Initializing Classifiers clf1 = LogisticRegression(random_state=0) clf2 = RandomForestClassifier(random_state=0) clf3 = SVC(random_state=0, probability=True) eclf = EnsembleVoteClassifier(clfs=[clf1, clf2, clf3], weights=[2, 1, 1], voting='soft') # Loading some example data X, y = iris_data() X = X[:,[0, 2]] # Plotting Decision Regions gs = gridspec.GridSpec(2, 2) fig = plt.figure(figsize=(10, 8)) labels = ['Logistic Regression', 'Random Forest', 'RBF kernel SVM', 'Ensemble'] for clf, lab, grd in zip([clf1, clf2, clf3, eclf], labels, itertools.product([0, 1], repeat=2)): clf.fit(X, y) ax = plt.subplot(gs[grd[0], grd[1]]) fig = plot_decision_regions(X=X, y=y, clf=clf, legend=2) plt.title(lab) plt.show()

Lifetimes: бібліотека для аналізу поведінки клієнтів, прогнозування прибутку і відтоку
GitLab: альтернативне GitHub сховище репозиторіїв з можливістю приховувати групові репозиторії. Зручно для закритої командної роботи і групової участі в ML-змаганнях.
Draw.io: створення діаграм для планування проекту.
Spider: простий скраппер для веб-сторінок у вигляді розширення Chrome. Можна завантажувати сторінки в CSV / JSON форматі.
Simple Scraper : перетворить будь-який сайт в API.
Airbnb Knowledge repo: ресурс для обміну знаннями між фахівцями в області обробки даних та інших технічних професій. Був створений для вирішення проблеми поширення знань в рамках зростаючої команди.
Kyso : сервіс допомагає створити привабливе і структуроване портфоліо аналітика даних. Ви зможете переглядати чужі портфоліо, побачите, як інші уявляють себе і свої дані. Безкоштовний період 14 днів.

25 корисних Data Science інструментів

LabelImg : графічний інструмент для розмітки об'єктів на картинках, додавання підписів і тегів зображень.
Reveal.js : фреймворк для створення HTML-презентацій. Багато аналітиків використовують його на своїх виступах.
PythonAnywhere: простий спосіб розгорнути онлайн легкий ML-проект на Python і супутніх бібліотеках.
Sheety: перетворить Google Sheet в API і моделює дані в реальному часі.
Jupyterthemes : втомилися від поточної теми Jupyter Notebook? Є багато інших.
Light GBM: одна з популярних бібліотек для односторонньої вибірки на основі градієнта. В останні роки набула великої популярності, особливо на Kaggle.
Machine Learning AZ: Practice Datasets and Codes: велике зібрання даних і коду на Python і R, що охоплює популярні алгоритми машинного навчання.
Gradient by Paperspace: запускайте блокноти Jupyter безкоштовно на хмарнії машині, оснащенії графічними процесорами.
Glueviz: візуалізують багатовимірні набори даних. Безкоштовний інструмент на основі Python (поставляється з Anaconda). Дуже добре підходить для пошуку зв'язків між наборами даних.
Hot dog or not hot dog?: Мануал, який не потребує знань AI, машинного навчання і навіть програмування. Керівництво про те, як з IBM Watson написати програму для перевірки, чи є об'єкт хот-догом чи ні. Найважливіший ресурс в добірці ;-)
FloydHub Workspaces: хмарне середовище розробки для глибокого навчання. Можна запускати блокноти Jupyter, скрипти Python, використовувати термінал і багато іншого.

Зарегистрируйтесь на Портале

и получите красивый адрес своей странички вида: senior.ua/sergey.ivanov

Проверить доступность:

senior.ua/|

Новости IT компаний
Обсуждения, Форум

25 корисних Data Science інструментів

Огляд DS інструментів:

Зарегистрируйтесь на Портале

Похожие материалы

0 комментариев

Добавить комментарий

IT Новости

Справжнє обличчя Telegram. Чому користуватися популярним месенджером небезпечно — аналіз NV

Цифровий бунтар чи хитрий кріт? 10 епічних конфліктів Павла Дурова із західною владою, які й призвели до його затримання

Windows 10 та 11 під загрозою. Останнє оновлення від Microsoft зашкодило багатьом ПК — корпорація запропонувала «ліки»

Дуже зручно. Усі служби Google будуть доступні в одній програмі для Windows

Маск закликав звільнити затриманого у Франції Дурова та запустив відповідний тег

Кінець 39-річної історії. Microsoft позбувається панелі керування в Windows

Шпигун на вашому ПК. Microsoft оголосила дату випуску суперечливої функції, яка запам’ятовує кожну вашу дію

Дрібниця, а приємно. В РФ стався масовий збій — не працюють соцмережі та онлайн-сервіси

Маленька переможна війна. Компанія Ілона Маска гучним позовом знищила організацію за відповідальні медіа

Як ШІ змінює програми ІТ-курсів в Україні: досвід Mate academy, Hillel IT School і не тільки