Python meetup (Online)

19:00
Online
Зарегистрироваться
Python meetup

Спикеры

Мария Изофатова
Мария Изофатова
Мегафон (Мегатех), Инженер по машинному обучению
Александр Мещеряков
Александр Мещеряков
Сinimex, Специалист по анализу данных
Дмитрий Савостьянов
Дмитрий Савостьянов
Artifactory, Founder
Стать спикером

Программа

19:00
Методы защиты кластера Hadoop в большой ML команде

1. Полезность доклада. При наличии большого количества аналитиков, которые работают с кластером могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды.  Сложность решения этой задачи состоит в том, что необходимо решать текущую проблему для уже настроенной сложной архитектуры, а также распространить экспертизу на команду.   2. Предмет доклада. Какие есть методы для решения без использования сложных сервисов? Как вариант - автоматическая очистка папок на hdfs при помощи bash скриптов и airflow, а также шаблонизация в библиотеках основных операций по работе с кластером (сохранение таблиц, запуск spark контекста и др.). Также могут быть полезны различные способы контроля над запущенными спарк приложениями при помощи python библиотек и airflow (обращение по api, Spark Listener). И чуть интереснее - автоматизированный аналитика и контроль кода в рамках MLOps системы.  3. Как сделать предмет доклада лучше? Плюсы описанных решений будут в том, что они основаны на инструментах python и pyspark и могут быть использованы в команде аналитиков любого масштаба, минусы в том, что они являются скорее надстройкой над системой, чем её основой, и требуют личной ответственности за код.

Свернуть ↑
Мария Изофатова
Мария Изофатова
Мегафон (Мегатех)
19:45
Feature engineering для пространственных данных

Для подготовки качественной модели машинного обучения вам могут потребоваться признаки из мира гео-данных. Таких признаков существует огромное количество, а добывать их можно самыми разными способами. При помощи гео-данных можно обогатить исходный датасет, получить новые интересные зависимости и улучшить метрики ваших моделей. Ну, и конечно же, отобразить исходную информацию на карте :)

Однако, при работе с географической информации перед вами наверняка встанет целый ряд вопросов, а именно - как не запутаться в свойствах геометрий, какой формат данных лучше всего подойдет для комфортной работы, как правильно объединять гео-данные, какие значимые признаки можно добыть из географических данных и многие другие.

Итак, в этом видео мы обсудим все эти насущные вопросы и расскажем о том как получить по-настоящему полезные и достоверные гео-данные.

Свернуть ↑
Александр Мещеряков
Александр Мещеряков
Сinimex
20:30
Как мы предсказывали платежи в мобильных играх

Монетизация в моб. играх строится на внутриигровых продажах. Обычно платят не более 10% пользователей. Очень важно удерживать платящих игроков и стимулировать их платить как можно больше. Именно поэтому мы построили систему предсказания платежей.

Мы храним и обрабатываем данные в Clickhouse. Для оркестрации пайплайнов используем Apache Airflow. Обучаем модели с помощью CatBoost, а в качестве MLOps решения выступает Clear.ml поверх AWS S3, там мы храним конфиги, модели и прочие артифакты экспериментов. Для мониторинга в продакшене используем Apache Superset.

Описанная архитектура позволяет проводить воспроизводимые ML-эксперименты, масштабировать процесс и оперативно катить в продакшен.

Свернуть ↑
Дмитрий Савостьянов
Дмитрий Савостьянов
Artifactory

Организаторы

Организатор
Партнеры
Подписаться
на наши мероприятия →
Важные новости и мероприятия без спама
Технологии которыми вы владеете и которые вам интересны
Ваш адрес электронной почты в безопасности - вот наша политика конфиденциальности.