Лемматизация запросов в mystem
Продолжаю отвечать на вопросы о Кластеризаторе.
Ещё один распространённый вопрос — как пользоваться mystem?
Mystem — консольная программа от Яндекс. Производит морфологический анализ текста на русском языке.

«Интерфейс» mystem.
Установка
- Заходим на сайт программы → выбираем необходимую версию (32/64) → загружаем.
- Распаковываем архив. Лучше в корень диска или создать отдельную папку в корне.
- Создаём в одной папке с mystem два файла: input.txt и output.txt.
Запуск
- Добавляем слова, которые будем лемматизировать, в input.txt.
- Заходим в cmd (Win+X на 10ке, на 7ке и младше: Пуск → Выполнить → cmd).
- Указываем путь к папке с mystem: пишем команду cd /D d:/mystem/ (где d:/mystem/ — путь куда вы распаковали mystem).
- Пишем команду mystem.exe input.txt output.txt -c -l -s → ждём пока программа отработает.
- Открываем output.txt → там появятся нормализованные значения слов.
Возможные проблемы
Кодировка
Может появится ошибка «failed to decode UTF-8 string» — неверная кодировка input.txt.

Failed to decode UTF-8 string
Лечение: устанавливаем Notepad++ → открываем input.txt → меняем кодировку на UTF-8.
Ошибки при смене директории
Могут появляться ошибки «The filename, directory name or volume label syntax is incotrrect» — это некорректный ввод команд.

The filename, directory name or volume label syntax is incotrrect
Лечение: корректно вводим команду cd /D d:/mystem/ (где d:/mystem/ — путь куда вы распаковали mystem).
P.S. Не стасняйтесь задавать вопросы — они помогают сделать инструмент доступнее и лучше.