Проблемы классификации текста: баланс скорости, осведомленности о контексте и ложных срабатываний с использованием модел

Проблемы классификации текста: баланс скорости, осведомленности о контексте и ложных срабатываний с использованием модел ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблемы классификации текста: баланс скорости, осведомленности о контексте и ложных срабатываний с использованием модел

Цитата

Сообщение Anonymous » 14 дек 2024, 12:54

Мне нужен совет по поводу машинного обучения. В настоящее время я работаю над задачей классификации текста, основная цель которой — обучить несколько моделей обнаружению конкретных типов вредоносного поведения (например, угроз, пренебрежительных выражений, разжигания ненависти и т. д.).
Чтобы дать некоторый контекст, у меня нет опыта обучения моделей ML. В моем проекте все построено на .NET, поэтому мне посоветовали попробовать ML.NET для обучения моделей. Для меня это дало несколько преимуществ: во-первых, оно легко интегрируется с архитектурой .NET, поскольку является частью той же экосистемы, и мне не пришлось бы многое менять. Во-вторых, модели, обученные с помощью ML.NET, выполняют вывод очень быстро.
Однако я быстро столкнулся с серьезными проблемами:

< li>Тренеры ML.NET представляют собой поверхностные модели и не способны
понимать контекст предложений. Например, я создал набор данных
с 200 000 строк для обнаружения угроз, ожидая приличных
результатов. К сожалению, во время тестирования я обнаружил множество ложных
положительных результатов, которых просто не должно было быть.
Основная проблема заключалась в часто используемые слова и образы. Например, в случае угроз такие шаблоны, как «Я
» или «Я
собираюсь…» часто помечались как угрозы. Это означало, что любое предложение,
начинающееся с таких шаблонов, классифицировалось неправильно, даже если оно
вообще не содержало угроз.
Чтобы решить эту проблему, я начал более тщательно балансировать набор данных. На практике это включало тестирование модели, выявление проблемных
ложных срабатываний, понимание того, почему они были неправильно классифицированы, и
создание дополнительных примеров, чтобы показать модели, что такие шаблоны
не обязательно являются угроз.

Через некоторое время я понял, что ML.NET, возможно, не самое надежное решение для такого типа угроз. задача. Я начал изучать решения на основе Python и наткнулся на модели на основе BERT. Я настроил свою собственную модель с помощью RoBERTa-large, но столкнулся со следующими проблемами:
Неудивительно, что модель была очень большой.
Скорость вывода модели была значительно медленнее. чем модели ML.NET.
Затем я экспериментировал с базой DistilBERT, которая представляет собой меньшую и более быструю модель. Хотя это действительно было быстрее, я все же столкнулся с множеством ложных срабатываний. Я подозреваю, что это может быть связано либо с неправильными настройками тонкой настройки (поскольку у меня нет опыта), либо с потенциальными проблемами с самим набором данных. Тем не менее, набор данных показался мне хорошо подготовленным, поэтому я ожидал лучших результатов.
Теперь я хотел бы попросить вашего совета:
Если у кого-нибудь есть опыт классификации текста используя ML.NET, как вы добились удовлетворительных результатов?
Если я решу полностью перейти на Python, каковы мои лучшие варианты? Мне нужно что-то быстрое и способное понимать контекст в предложениях, не полагаясь исключительно на часто встречающиеся слова в наборе данных, что в противном случае привело бы к большому количеству ложных срабатываний.

Подробнее здесь: https://stackoverflow.com/questions/792 ... -and-false

1734170067

Anonymous

Мне нужен совет по поводу машинного обучения. В настоящее время я работаю над задачей классификации текста, основная цель которой — обучить несколько моделей обнаружению конкретных типов вредоносного поведения (например, угроз, пренебрежительных выражений, разжигания ненависти и т. д.).
Чтобы дать некоторый контекст, у меня нет опыта обучения моделей ML. В моем проекте все построено на .NET, поэтому мне посоветовали попробовать ML.NET для обучения моделей. Для меня это дало несколько преимуществ: во-первых, оно легко интегрируется с архитектурой .NET, поскольку является частью той же экосистемы, и мне не пришлось бы многое менять. Во-вторых, модели, обученные с помощью ML.NET, выполняют вывод очень быстро.
Однако я быстро столкнулся с серьезными проблемами:
[list]
< li>Тренеры ML.NET представляют собой поверхностные модели и не способны
понимать контекст предложений. Например, я создал набор данных
с 200 000 строк для обнаружения угроз, ожидая приличных
результатов. К сожалению, во время тестирования я обнаружил множество ложных
положительных результатов, которых просто не должно было быть.

[*]Основная проблема заключалась в часто используемые слова и образы. Например, в случае угроз такие шаблоны, как «Я
» или «Я
собираюсь…» часто помечались как угрозы. Это означало, что любое предложение,
начинающееся с таких шаблонов, классифицировалось неправильно, даже если оно
вообще не содержало угроз.

[*]Чтобы решить эту проблему, я начал более тщательно балансировать набор данных. На практике это включало тестирование модели, выявление проблемных
ложных срабатываний, понимание того, почему они были неправильно классифицированы, и
создание дополнительных примеров, чтобы показать модели, что такие шаблоны
не обязательно являются угроз.

[/list]
Через некоторое время я понял, что ML.NET, возможно, не самое надежное решение для такого типа угроз. задача. Я начал изучать решения на основе Python и наткнулся на модели на основе BERT. Я настроил свою собственную модель с помощью RoBERTa-large, но столкнулся со следующими проблемами:
Неудивительно, что модель была очень большой.
Скорость вывода модели была значительно медленнее. чем модели ML.NET.
Затем я экспериментировал с базой DistilBERT, которая представляет собой меньшую и более быструю модель. Хотя это действительно было быстрее, я все же столкнулся с множеством ложных срабатываний. Я подозреваю, что это может быть связано либо с неправильными настройками тонкой настройки (поскольку у меня нет опыта), либо с потенциальными проблемами с самим набором данных. Тем не менее, набор данных показался мне хорошо подготовленным, поэтому я ожидал лучших результатов.
Теперь я хотел бы попросить вашего совета:
Если у кого-нибудь есть опыт классификации текста используя ML.NET, как вы добились удовлетворительных результатов?
Если я решу полностью перейти на Python, каковы мои лучшие варианты? Мне нужно что-то быстрое и способное понимать контекст в предложениях, не полагаясь исключительно на часто встречающиеся слова в наборе данных, что в противном случае привело бы к большому количеству ложных срабатываний. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79280374/challenges-in-text-classification-balancing-speed-context-awareness-and-false[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Ошибка пичарма? Проверка ложных срабатываний при импорте asynccontextmanager

Последнее сообщение Anonymous « 04 янв 2024, 18:30
Добавлено в форуме Python

Anonymous » 04 янв 2024, 18:30 » в форуме Python

ИЗМЕНИТЬ теперь воспроизведенная проблема

РЕДАКТИРОВАТЬ Я сделал более минимальное воспроизведение и обнаружил, что это происходит только при импорте..

На сегодняшний день Pycharm выделяет вызовы asynccontextmanager как отсутствующий...

0 Ответы

84 Просмотры

Последнее сообщение Anonymous
04 янв 2024, 18:30
Как избежать ложных срабатываний Защитника Windows при использовании программного обеспечения C#?

Последнее сообщение Anonymous « 01 май 2024, 16:49
Добавлено в форуме C#

Anonymous » 01 май 2024, 16:49 » в форуме C#

Я разрабатываю программное обеспечение на C#, которое включает функцию перехвата пакетов.
В Windows программное обеспечение должно быть настроено как исключение для брандмауэра Windows для анализа входящих пакетов.
Я попробовал два метода, чтобы...

0 Ответы

58 Просмотры

Последнее сообщение Anonymous
01 май 2024, 16:49
Как избежать ложных срабатываний Защитника Windows при использовании программного обеспечения C#?

Последнее сообщение Anonymous « 08 май 2024, 20:32
Добавлено в форуме C#

Anonymous » 08 май 2024, 20:32 » в форуме C#

Я разрабатываю программное обеспечение на C#, которое включает функцию перехвата пакетов.
В Windows программное обеспечение должно быть настроено как исключение для брандмауэра Windows для анализа входящих пакетов.
Я попробовал два метода, чтобы...

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
08 май 2024, 20:32
Pyinstaller Exe запускает антивирус ложных срабатываний на других машинах - как исправить?

Последнее сообщение Anonymous « 15 июн 2025, 16:30
Добавлено в форуме Python

Anonymous » 15 июн 2025, 16:30 » в форуме Python

Я разработал приложение Python и успешно преобразовал его в файл EXE с использованием Pyinstaller (Pyinstaller -Onefile - -Noconsole).
Exe прекрасно работает на моем машине разработки (Windows 10/11), но когда я копирую его на другую машину,...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
15 июн 2025, 16:30
Android - переопределить датчик камеры (объектив), баланс белого, ISO, настройки скорости затвора, когда используется др

Последнее сообщение Anonymous « 25 фев 2025, 21:54
Добавлено в форуме Android

Anonymous » 25 фев 2025, 21:54 » в форуме Android

Android имеет режим веб -камеры, но управление камерой на нем плохая. Можно ли переопределить эти элементы управления камерой через ADB или приложение с привилегиями администратора? Я хотел бы иметь возможность установить следующее:

Для устройств...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
25 фев 2025, 21:54

Вернуться в «Python»