Классификация документов с изменением классовJAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Классификация документов с изменением классов

Сообщение Anonymous »

Я хотел бы создать для своих клиентов инструмент классификации документов на Java со следующими особыми условиями:
  • Клиенты используют мое программное обеспечение (SaaS) для администрировать проекты. У одного заказчика
    обычно 1–10 проектов в год.
  • В рамках каждого проекта заказчику необходимо классифицировать 50–100 документов.
  • Классы различаются в зависимости от проекта и определяются заказчиком.
  • Несмотря на то, что классы различаются, между классами в разных проектах и ​​среди клиентов, как правило, имеется сильное сходство.
Пример:
  • Проект А имеет 3 класса:

    А1 Редактирование аудио
  • А2 Редактирование видео
  • А3 Администрирование и бухгалтерский учет
[*]Проект B имеет 4 класса:
  • B1 Монтаж аудио и видео
  • B2 Администрирование
  • B3 Ведение бухгалтерского учета
  • B4 Телекоммуникации
[*]Проект C имеет 4 класса:
< ul>
C1 Монтаж аудио
[*]C2 Административные расходы
[*]C3 Телекоммуникации
[*] C4 Командировочные расходы



Документы:
  • Счет за телефон будет помещен в A3, B4 и C3.
  • Счет, выставленный экспертом по редактированию аудио, будет помещен в A1, B1 и C1. >
  • Счет за программное обеспечение для бухгалтерского учета попадет в A3, B3 и C2.
  • Счет за скрепки для бумаг попадет в A3, B2 и C2. >
Я ожидаю, что у меня будут сотни клиентов с тысячами проектов. Само по себе создание и обучение одной отдельной системы классификации для каждого проекта, очевидно, кажется бесполезным.
Я думаю, что могу использовать два факта для решения:
  • Классы повторяются с течением времени либо точно, либо с небольшими изменениями в их именах и значениях.
  • Существует корреляция между именами классов, определяемыми пользователем, и содержимым документы. Например, счета за аудиомонтаж обычно содержат такие слова, как «аудио», «акустический» и т.п., которые редко встречаются в документах других классов.
  • Клиенты могут исправить классификацию. вручную. В какой-то момент они завершают проект. На этом этапе можно предположить, что заказчик принял окончательное решение о классификации документа. Эту проверенную вручную окончательную классификацию можно использовать в качестве исходных данных для автоматического улучшения модели с течением времени.
Похоже, что я не могу быть первым, у кого есть такая требования, но мне не удалось найти ничего по этой теме в Интернете. Возможно, я просто не знаю подходящего термина для описания проблемы такого типа. Будем признательны за любые советы по поводу хорошего процесса или некоторых существующих алгоритмов/библиотек/литературы/продуктов, желательно на основе Java.

Подробнее здесь: https://stackoverflow.com/questions/786 ... ng-classes
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»