Классификация текста.

Опять осень, опять фигня какая-то. Или это из-за недостатка секса. Или из-за питания. Или сбившегося режима сна. Атмосфера тоже могла повлиять, здесь я всегда впадаю в тупое состояние. Не сказал бы, что бы интеллект резко падал — наконец освоил word2vec и lasagne — жаль, но нейронные сети не являются прорывом в классификации текстов. Полпроцента разницы по сравнению с градиентным спуском, если все правильно сделать. Еще лемматизация дала треть процента. А надо пятнадцать. Говорят, надо делать качественную предобработку текста, но с этим пока сложности.

Кстати, word2vec. Легко дает 75% (при моем максимуме в 80%) при использовании чужой разметки векторов (свою на обычном компьютере не сделаешь). Но ни капли точности в целом не прибавляет. То есть, если просто добавить к тому, что уже есть, я получаю 78%, вместо 80-и. Обидно, да? Я всегда (с тех пор, как узнал про него) считал word2vec прорывом. Ведь просто посчитать, как часто встречается каждое слово в тексте — это же слишком тупо. А на практике — не так уж тупо. Не особо тупее крутого анализа похожести слов.

Лучше всего работает добавление новых обучающих примеров, что, конечно, не удивительно. Лишние 10% к базе дают 2% прироста качества. С этой точки зрения выгодно сидеть и файлы размечать, а не над алгоритмами думать.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *