Классификация тональности текстов(3 класса) с использованием предобученной модели Bert на основе датасета твитов о фильме The Social Dilemma (https://www.kaggle.com/kaushiksuresh147/the-social-dilemma-tweets). Используются 2 метрики: f1 и accuracy. Есть простое решение в керасе без предобученных моделей с accuracy 0.9115: https://www.kaggle.com/ivxn99/simple-tensorflow2-keras-classification.
- Долго не понимал, как реализуется transfer learning в коде
- Ограничения по использованию GPU в колабе (в итоге перешел на vast.ai)
- Результаты неоднозначные. Accuracy чуть более 60 для 3 классов с одной стороны неплохо, но с другой стороны видел тетрадку с простой реализацией в керасе (ссылка выше в описании), где получался accuracy на уровне 0.9115. Однако здесь много оговорок (токенизация, очистка данных, более простая модель и т.д.).
- Не сильно вникал, как происходит токенизация в предобученной модели. Пытался очистить данные перед токенизацией, но всё получалось значительно хуже (accuracy падало до 0.3-0.4)
- С обновлением весов у Берта GPU не справлялся. Возможно, при их обновлении всё могло бы получиться гораздо лучше.