Лемматизация запросов в mystem

Продолжаю отвечать на вопросы о Кластеризаторе.

Ещё один распространённый вопрос — как пользоваться mystem?

Mystem — консольная программа от Яндекс. Производит морфологический анализ текста на русском языке.

«Интерфейс» mystem.

Установка

  1. Заходим на сайт программы → выбираем необходимую версию (32/64) → загружаем.
  2. Распаковываем архив. Лучше в корень диска или создать отдельную папку в корне.
  3. Создаём в одной папке с mystem два файла: input.txt и output.txt.

Запуск

  1. Добавляем слова, которые будем лемматизировать, в input.txt.
  2. Заходим в cmd (Win+X на 10ке, на 7ке и младше: Пуск → Выполнить → cmd).
  3. Указываем путь к папке с mystem: пишем команду cd /D d:/mystem/ (где d:/mystem/ — путь куда вы распаковали mystem).
  4. Пишем команду mystem.exe input.txt output.txt -c -l -s → ждём пока программа отработает.
  5. Открываем output.txt → там появятся нормализованные значения слов.

Возможные проблемы

Кодировка

Может появится ошибка «failed to decode UTF-8 string» — неверная кодировка input.txt.

Failed to decode UTF-8 string

Лечение: устанавливаем Notepad++ → открываем input.txt → меняем кодировку на UTF-8.

Ошибки при смене директории

Могут появляться ошибки «The filename, directory name or volume label syntax is incotrrect» — это некорректный ввод команд.

The filename, directory name or volume label syntax is incotrrect

Лечение: корректно вводим команду cd /D d:/mystem/ (где d:/mystem/ — путь куда вы распаковали mystem).

P.S. Не стасняйтесь задавать вопросы — они помогают сделать инструмент доступнее и лучше.

Поделиться
Отправить
Запинить
2 комментария
Оля

Спасибо :) Статья сняла вопросы по программе.

Александр

Здравствуйте, спасибо за статью. Сделал все выше перечисленное и возникает некоторая ошибка, которую не могу распознать http://joxi.ru/Drl1EyCvw4WKmP. Может Вы что-то подскажете?

Роман Игошин

Добрый день, Александр! Похоже, что mystem не может получить доступ к файлу input.txt. Попробуйте перенести утилиту и файлы в корень диска или проверьте настройки доступа к файлу.