Я строю детектор плагиата для определения сгенерированного AI-кода на таких платформах, как Codeforces. Я скрещивал 1193 образцов кода, сгенерированных человеком и AI (Python, C ++, Java) для тех же проблем. Моя цель - обучить нейронную сеть (например, Codebert или LSTM), чтобы различить их. Я токенизировал код, используя токен-модуль Python, но не уверен, как обрабатывать многоязычный код или преобразовать его в такие функции, как ASTS или Enterdings. Как лучше всего предварительно обрабатывать эти образцы для модели бинарной классификации? Я использую Python и Pytorch, любые советы об извлечении функций или таких инструментах, как Tree-Sitter, помогут!
Подробнее здесь: https://stackoverflow.com/questions/796 ... rated-code
Как предварительно обрабатывать образцы кода для нейронной сети для обнаружения сгенерированного AI-кода? [закрыто] ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение