Лемматизация запросов в mystem
Продолжаю отвечать на вопросы о Кластеризаторе.
Ещё один распространённый вопрос — как пользоваться mystem?
Mystem — консольная программа от Яндекс. Производит морфологический анализ текста на русском языке.
Установка
- Заходим на сайт программы → выбираем необходимую версию (32/64) → загружаем.
- Распаковываем архив. Лучше в корень диска или создать отдельную папку в корне.
- Создаём в одной папке с mystem два файла: input.txt и output.txt.
Запуск
- Добавляем слова, которые будем лемматизировать, в input.txt.
- Заходим в cmd (Win+X на 10ке, на 7ке и младше: Пуск → Выполнить → cmd).
- Указываем путь к папке с mystem: пишем команду cd /D d:/mystem/ (где d:/mystem/ — путь куда вы распаковали mystem).
- Пишем команду mystem.exe input.txt output.txt -c -l -s → ждём пока программа отработает.
- Открываем output.txt → там появятся нормализованные значения слов.
Возможные проблемы
Кодировка
Может появится ошибка «failed to decode UTF-8 string» — неверная кодировка input.txt.
Лечение: устанавливаем Notepad++ → открываем input.txt → меняем кодировку на UTF-8.
Ошибки при смене директории
Могут появляться ошибки «The filename, directory name or volume label syntax is incotrrect» — это некорректный ввод команд.
Лечение: корректно вводим команду cd /D d:/mystem/ (где d:/mystem/ — путь куда вы распаковали mystem).
P.S. Не стасняйтесь задавать вопросы — они помогают сделать инструмент доступнее и лучше.
Спасибо :) Статья сняла вопросы по программе.
Здравствуйте, спасибо за статью. Сделал все выше перечисленное и возникает некоторая ошибка, которую не могу распознать http://joxi.ru/Drl1EyCvw4WKmP. Может Вы что-то подскажете?
Добрый день, Александр! Похоже, что mystem не может получить доступ к файлу input.txt. Попробуйте перенести утилиту и файлы в корень диска или проверьте настройки доступа к файлу.