Python meetup (Online)
Спикеры
Программа
1. Полезность доклада. При наличии большого количества аналитиков, которые работают с кластером могут возникать проблемы с количеством памяти и ресурсов, а также риски создать лишнюю нагрузку на name ноды. Сложность решения этой задачи состоит в том, что необходимо решать текущую проблему для уже настроенной сложной архитектуры, а также распространить экспертизу на команду. 2. Предмет доклада. Какие есть методы для решения без использования сложных сервисов? Как вариант - автоматическая очистка папок на hdfs при помощи bash скриптов и airflow, а также шаблонизация в библиотеках основных операций по работе с кластером (сохранение таблиц, запуск spark контекста и др.). Также могут быть полезны различные способы контроля над запущенными спарк приложениями при помощи python библиотек и airflow (обращение по api, Spark Listener). И чуть интереснее - автоматизированный аналитика и контроль кода в рамках MLOps системы. 3. Как сделать предмет доклада лучше? Плюсы описанных решений будут в том, что они основаны на инструментах python и pyspark и могут быть использованы в команде аналитиков любого масштаба, минусы в том, что они являются скорее надстройкой над системой, чем её основой, и требуют личной ответственности за код.
Для подготовки качественной модели машинного обучения вам могут потребоваться признаки из мира гео-данных. Таких признаков существует огромное количество, а добывать их можно самыми разными способами. При помощи гео-данных можно обогатить исходный датасет, получить новые интересные зависимости и улучшить метрики ваших моделей. Ну, и конечно же, отобразить исходную информацию на карте :)
Однако, при работе с географической информации перед вами наверняка встанет целый ряд вопросов, а именно - как не запутаться в свойствах геометрий, какой формат данных лучше всего подойдет для комфортной работы, как правильно объединять гео-данные, какие значимые признаки можно добыть из географических данных и многие другие.
Итак, в этом видео мы обсудим все эти насущные вопросы и расскажем о том как получить по-настоящему полезные и достоверные гео-данные.
Монетизация в моб. играх строится на внутриигровых продажах. Обычно платят не более 10% пользователей. Очень важно удерживать платящих игроков и стимулировать их платить как можно больше. Именно поэтому мы построили систему предсказания платежей.
Мы храним и обрабатываем данные в Clickhouse. Для оркестрации пайплайнов используем Apache Airflow. Обучаем модели с помощью CatBoost, а в качестве MLOps решения выступает Clear.ml поверх AWS S3, там мы храним конфиги, модели и прочие артифакты экспериментов. Для мониторинга в продакшене используем Apache Superset.
Описанная архитектура позволяет проводить воспроизводимые ML-эксперименты, масштабировать процесс и оперативно катить в продакшен.