Python meetup (Online)

28 июня 2023

19:00

Online

Зарегистрироваться

Подать доклад

Спикеры

Мария Изофатова

Мегафон (Мегатех), Инженер по машинному обучению

Александр Мещеряков

Сinimex, Специалист по анализу данных

Дмитрий Савостьянов

Artifactory, Founder

Стать спикером

Программа

19:00

Методы защиты кластера Hadoop в большой ML команде

1. Полезность доклада. При наличии большого количества аналитиков, которые работают с кластером могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Сложность решения этой задачи состоит в том, что необходимо решать текущую проблему для уже настроенной сложной архитектуры, а также распространить экспертизу на команду. 2. Предмет доклада. Какие есть методы для решения без использования сложных сервисов? Как вариант - автоматическая очистка папок на hdfs при помощи bash скриптов и airflow, а также шаблонизация в библиотеках основных операций по работе с кластером (сохранение таблиц, запуск spark контекста и др.). Также могут быть полезны различные способы контроля над запущенными спарк приложениями при помощи python библиотек и airflow (обращение по api, Spark Listener). И чуть интереснее - автоматизированный аналитика и контроль кода в рамках MLOps системы. 3. Как сделать предмет доклада лучше? Плюсы описанных решений будут в том, что они основаны на инструментах python и pyspark и могут быть использованы в команде аналитиков любого масштаба, минусы в том, что они являются скорее надстройкой над системой, чем её основой, и требуют личной ответственности за код.

Свернуть ↑

Мария Изофатова

Мегафон (Мегатех)

19:45

Feature engineering для пространственных данных

Для подготовки качественной модели машинного обучения вам могут потребоваться признаки из мира гео-данных. Таких признаков существует огромное количество, а добывать их можно самыми разными способами. При помощи гео-данных можно обогатить исходный датасет, получить новые интересные зависимости и улучшить метрики ваших моделей. Ну, и конечно же, отобразить исходную информацию на карте :)

Однако, при работе с географической информации перед вами наверняка встанет целый ряд вопросов, а именно - как не запутаться в свойствах геометрий, какой формат данных лучше всего подойдет для комфортной работы, как правильно объединять гео-данные, какие значимые признаки можно добыть из географических данных и многие другие.

Итак, в этом видео мы обсудим все эти насущные вопросы и расскажем о том как получить по-настоящему полезные и достоверные гео-данные.

Свернуть ↑

Александр Мещеряков

Сinimex

20:30

Как мы предсказывали платежи в мобильных играх

Монетизация в моб. играх строится на внутриигровых продажах. Обычно платят не более 10% пользователей. Очень важно удерживать платящих игроков и стимулировать их платить как можно больше. Именно поэтому мы построили систему предсказания платежей.

Мы храним и обрабатываем данные в Clickhouse. Для оркестрации пайплайнов используем Apache Airflow. Обучаем модели с помощью CatBoost, а в качестве MLOps решения выступает Clear.ml поверх AWS S3, там мы храним конфиги, модели и прочие артифакты экспериментов. Для мониторинга в продакшене используем Apache Superset.

Описанная архитектура позволяет проводить воспроизводимые ML-эксперименты, масштабировать процесс и оперативно катить в продакшен.

Свернуть ↑

Дмитрий Савостьянов

Artifactory

Зарегистрироваться

Подать доклад

Организаторы

Организатор

Партнеры

ITMeeting - телеграм-канал с анонсами бесплатных мероприятий по разработке