Как правильно оценить баллы ROUGE и BLEU по заполнению медицинских текстов на китайском языке (LLM)?Python

Программы на Python
Ответить
Anonymous
 Как правильно оценить баллы ROUGE и BLEU по заполнению медицинских текстов на китайском языке (LLM)?

Сообщение Anonymous »

Я разрабатываю систему на основе LLM для заполнения медицинских записей, используя точно настроенную модель Llama-3-8B. На этапе оценки я использую библиотеку Hugging Face Assessment для расчета стандартных показателей NLP, таких как ROUGE и BLEU.
Стандартные реализации ROUGE и BLEU по умолчанию используют пространственную токенизацию, которая хорошо работает для английского языка, но не работает для китайского. Мой текущий обходной путь — разделить текст на отдельные символы:

Код: Выделить всё

# My current preprocessing (Character-level)
preds_zh = [" ".join(list(p)) for p in predictions]
refs_zh_rouge = [" ".join(list(r)) for r in references]

rouge = evaluate.load("rouge")
rouge_res = rouge.compute(predictions=preds_zh, references=refs_zh_rouge)
Однако в медицинской сфере разделение на уровне персонажей теряет критическую клиническую семантику. Например:
  • Код: Выделить всё

    "高血壓"
    (Гипертония) делится на «высокое», «кровяное», «давление».
  • Код: Выделить всё

    "心肌梗塞"
    (Инфаркт миокарда) разделен на четыре отдельных токена.
Это приводит к завышенным оценкам, которые не обязательно отражают способность модели генерировать точную медицинскую терминологию. В недавней литературе (например, Large Language Models Reshaping the Future of Surgery, DOI: 10.12677/acm.2026.161080) подчеркивается важность точности в хирургической/сестринской документации.

Мои вопросы:

  • Пользовательская токенизация в Assessment: Существует ли стандартный способ внедрения пользовательского сегментатора китайских слов (например, jieba или pkuseg с медицинским словарем) в рабочий процесс Assessment.load("rouge") или bleu, чтобы n-граммы рассчитывались на основе значимых медицинских терминов, а не символов?
  • BERTScore против ROUGE: Для медицинских записей, в которых часто встречаются синонимы (например, «S/P» против «После операции»), считается ли BERTScore более надежным, чем ROUGE/BLEU? Если да, то какую предварительно обученную китайскую модель (например, bert-base-chinese или Medical-BERT) рекомендуется использовать для встраиваемой магистрали, чтобы получить наиболее точные оценки F1?
  • Обработка пунктуации: Записи медсестер часто содержат много символов (,, :, /). Следует ли их отфильтровывать перед расчетом показателей или они имеют достаточно структурное значение в клинических заметках, чтобы их можно было хранить в качестве токенов?

Что я пробовал:

  • Разделение на уровне символов (как показано выше), но оно не наказывает неправильные комбинации слов, в которых используются одни и те же символы.
  • Стандартная джиеба без словаря, который часто неправильно разделяет специализированные хирургические термины.
Окружающая среда:

Подробнее здесь: https://stackoverflow.com/questions/799 ... xt-complet
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»