Откуда данные и как считаем

Все очень просто. Мы парсим исключительно открытые супергруппы и каналы телеграм, далее, на основе текстов, нейронка присваивает категории из списка — примерно 6000 тем. Все группы проходят ручную верификацию на предмет корректности принятия машиной решений по классификации.

Мы не стали сами придумывать систему категорий, а получили ее у проекта бота @ibhldr_bot вместе с первичными данными. Точность категорий колеблется в пределах 94-97% (после ручной верификации). Детально раскрывать наше ноу-хау обучения нейронки и бизнес-процесса верификации пока не будем, но некоторые детали раскроем со временем, если будет такой запрос у пользователей.

Для более точного подсчета, мы ведем базу виртуалов и т.н. сталкеров (пользователей телеграм, которые находятся одновременно в большом кол-ве каналов и чьи интересы могут создавать бессмысленный шум). В планах запустить чистку от виртуалов для админов каналов с высокой точностью: указав не только период, за который необходимо отсечь накрутку/виртуалов, но и указать категорию интереса, по которой провести чистку.

В расчет распределения категорий интересов аудитории принимаются только те подписчики, чьи интересы активны в течение последних 7 дней. Как правило, это однозначно фиксирует интерес на данный момент, отсеивая случайный шум (случайно зашел в группу или хайпанул по какой-то тематике). В среднем в оценке аудитории участвует от 30% до 80% живых подписчиков (Телеграм не возвращает удаленные аккаунты, которые продолжают висеть в списке Подписчиков). Такой большой разброс связан с исключением виртуалов, сталкеров и, банально, тех пользователей, по которым сейчас нет активных интересов (кроме вашего канала или любого другого, использующих нашего бота).