- входной файл (txt, .pdf, .doc)
- преобразовать содержимое файла в текст
- удалить стоп-слова, токенизировать в n-грамму
- обработать сходство текста алгоритмы в текстах
- сообщение о признаках обнаружения плагиата
Есть ли кто-нибудь, кто работал с библиотекой ws4j? Любая документация или помощь доступны для этого? Это именно то, что я хочу: демо
Подробнее здесь: https://stackoverflow.com/questions/171 ... 4j-library
Мобильная версия