Есть ли способ использовать CodeBERT для встраивания исходного кода без естественного языка на входе? - Цифровое Кемерово

Есть ли способ использовать CodeBERT для встраивания исходного кода без естественного языка на входе? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Есть ли способ использовать CodeBERT для встраивания исходного кода без естественного языка на входе?

Цитата

Сообщение Anonymous » 28 июн 2024, 23:09

На сайте CodeBERTS github представлен пример использования пары NL-PL с предварительно обученной базовой моделью для создания внедрения. Я хочу создать встраивание, используя только исходный код, к которому не привязан естественный язык. Это будет сделано для того, чтобы я мог попытаться использовать косинусное сходство, чтобы найти сходство встраивания одного исходного кода в другое. Было бы менее желательно просто удалить токены естественного языка, а не использовать другой метод?
В этом исходном коде я воссоздал предложенный метод внедрения, но без каких-либо токенов естественного языка. Мои окончательные результаты по сходству не были исключительными, поэтому я не могу подтвердить, был ли этот метод лучшим или нет.

Код: Выделить всё

>>> from transformers import AutoTokenizer, AutoModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/codebert-base")
>>> model = AutoModel.from_pretrained("microsoft/codebert-base")
>>> code_tokens=tokenizer.tokenize("def max(a,b): if a>b: return a else return b")
['def', 'Ġmax', '(', 'a', ',', 'b', '):', 'Ġif', 'Ġa', '>', 'b', ':', 'Ġreturn', 'Ġa', 'Ġelse', 'Ġreturn', 'Ġb']
>>> tokens=[tokenizer.cls_token]+[tokenizer.sep_token]+code_tokens+[tokenizer.eos_token]
['', '', 'def', 'Ġmax', '(', 'a', ',', 'b', '):', 'Ġif', 'Ġa', '>', 'b', ':', 'Ġreturn', 'Ġa', 'Ġelse', 'Ġreturn', 'Ġb', '']
>>> tokens_ids=tokenizer.convert_tokens_to_ids(tokens)
[0, 2, 9232, 19220, 1640, 102, 6, 428, 3256, 114, 10, 15698, 428, 35, 671, 10, 1493, 671, 741, 2]
>>> context_embeddings=model(torch.tensor(tokens_ids)[None,:])[0]
torch.Size([1, 20, 768])
tensor([[-0.1423,  0.3766,  0.0443,  ..., -0.2513, -0.3099,  0.3183],
...,
[-0.1433,  0.3785,  0.0450,  ..., -0.2527, -0.3121,  0.3207]],
grad_fn=)

Я также заметил проект https://github.com/neulab/code-bert-score, который пытается добиться чего-то подобного, поскольку они делают nl необязательным вводом. Однако мне не удалось узнать точный метод выполнения этой задачи из их утилит.

Подробнее здесь: https://stackoverflow.com/questions/786 ... anguage-in

Реклама

1719605367

Anonymous

На сайте CodeBERTS github представлен пример использования пары NL-PL с предварительно обученной базовой моделью для создания внедрения. Я хочу создать встраивание, используя только исходный код, к которому не привязан естественный язык. Это будет сделано для того, чтобы я мог попытаться использовать косинусное сходство, чтобы найти сходство встраивания одного исходного кода в другое. Было бы менее желательно просто удалить токены естественного языка, а не использовать другой метод?
В этом исходном коде я воссоздал предложенный метод внедрения, но без каких-либо токенов естественного языка. Мои окончательные результаты по сходству не были исключительными, поэтому я не могу подтвердить, был ли этот метод лучшим или нет.
[code]>>> from transformers import AutoTokenizer, AutoModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/codebert-base")
>>> model = AutoModel.from_pretrained("microsoft/codebert-base")
>>> code_tokens=tokenizer.tokenize("def max(a,b): if a>b: return a else return b")
['def', 'Ġmax', '(', 'a', ',', 'b', '):', 'Ġif', 'Ġa', '>', 'b', ':', 'Ġreturn', 'Ġa', 'Ġelse', 'Ġreturn', 'Ġb']
>>> tokens=[tokenizer.cls_token]+[tokenizer.sep_token]+code_tokens+[tokenizer.eos_token]
['', '', 'def', 'Ġmax', '(', 'a', ',', 'b', '):', 'Ġif', 'Ġa', '>', 'b', ':', 'Ġreturn', 'Ġa', 'Ġelse', 'Ġreturn', 'Ġb', '']
>>> tokens_ids=tokenizer.convert_tokens_to_ids(tokens)
[0, 2, 9232, 19220, 1640, 102, 6, 428, 3256, 114, 10, 15698, 428, 35, 671, 10, 1493, 671, 741, 2]
>>> context_embeddings=model(torch.tensor(tokens_ids)[None,:])[0]
torch.Size([1, 20, 768])
tensor([[-0.1423,  0.3766,  0.0443,  ..., -0.2513, -0.3099,  0.3183],
...,
[-0.1433,  0.3785,  0.0450,  ..., -0.2527, -0.3121,  0.3207]],
grad_fn=)
[/code]
Я также заметил проект https://github.com/neulab/code-bert-score, который пытается добиться чего-то подобного, поскольку они делают nl необязательным вводом. Однако мне не удалось узнать точный метод выполнения этой задачи из их утилит. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78684319/is-there-a-way-to-use-codebert-to-embed-source-code-without-natural-language-in[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Есть ли способ использовать CodeBERT для встраивания исходного кода без естественного языка на входе?

Последнее сообщение Anonymous « 29 июн 2024, 10:14
Добавлено в форуме Python

Anonymous » 29 июн 2024, 10:14 » в форуме Python

На сайте CodeBERTS github представлен пример использования пары NL-PL с предварительно обученной базовой моделью для создания внедрения. Я хочу создать встраивание, используя только исходный код, к которому не привязан естественный язык. Это будет...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 10:14
Обработка сотен файлов CSV по одной строке для встраивания, загрузка в сосноваю шишку с использованием встраивания OpenA

Последнее сообщение Anonymous « 01 мар 2024, 07:51
Добавлено в форуме Python

Anonymous » 01 мар 2024, 07:51 » в форуме Python

Это мой текущий код, который работает некоторое время, а затем выдает ошибку «невозможно запустить новый поток». Пробовал как многопоточность, так и многопроцессорность, и оба в конечном итоге вызывают эту ошибку.
defprocess_file(file_path):...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
01 мар 2024, 07:51
Обработка арабского естественного языка [закрыто]

Последнее сообщение Anonymous « 05 дек 2023, 10:18
Добавлено в форуме Python

Anonymous » 05 дек 2023, 10:18 » в форуме Python

Итак, я уже изучаю компьютерную лингвистику в школе, а также Python. Каждая теоретическая концепция сама по себе кажется простой, хотя я не могу ничего применить к Python. Итак, что вы предлагаете мне сделать, как новичку? Есть ли открытые ресурсы...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
05 дек 2023, 10:18
Проблема в интеграции API естественного языка с Firestore

Последнее сообщение Anonymous « 25 июн 2024, 11:48
Добавлено в форуме Android

Anonymous » 25 июн 2024, 11:48 » в форуме Android

Я разрабатываю приложение на Kotlin, в нем есть часть, где у меня есть обзоры, например функция, где я публикую обзор чего-то, и он сохраняется в Firestore, я также использовал Firebase для аутентификации, теперь я попробовал много, которые...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 11:48
Проблема в интеграции API естественного языка с Firestore

Последнее сообщение Anonymous « 28 июн 2024, 19:25
Добавлено в форуме Android

Anonymous » 28 июн 2024, 19:25 » в форуме Android

Я разрабатываю приложение на Kotlin, в нем есть часть, где у меня есть обзоры, например функция, где я публикую обзор чего-то, и он сохраняется в Firestore, я также использовал Firebase для аутентификации, теперь я попробовал много, которые...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
28 июн 2024, 19:25

Вернуться в «Python»

Programmiererforum