Токенизация строковых значений для обучения модели ИИ

Токенизация строковых значений для обучения модели ИИ ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Токенизация строковых значений для обучения модели ИИ

Цитата

Сообщение Anonymous » 02 дек 2024, 20:38

Я пытаюсь изменить строковые значения системных вызовов API на числа, чтобы моя модель научилась классифицировать вредоносное ПО.
У меня уже есть один код, который работает с этим набором данных
/>ссылка: https://github.com/mpasco/MalbehavD-V1
этот набор данных не имеет меток, указывающих тип вредоносного ПО, но если это просто вредоносное ПО,
но когда я пытаюсь использовать то же самое код для формы данных
ссылка: https://github.com/khas-ccip/api_sequen ... e_datasets
это классифицирует вредоносное ПО
Все, что я могу получить, это неуместные значения или все значения Nan, как я и ожидал, должны быть числовыми представлениями вызовов API.
Код, который я использовал для классификации вредоносных программ или нет, и насколько я могу судить, он работает хорошо.
data = pd.read_csv('data.csv' ,header=0)

tokenizer = Tokenizer()

# Convert the values in each row to strings before passing to fit_on_texts
tokenizer.fit_on_texts([' '.join(map(str, row)) for row in data.iloc[:, 1:-1].values]) # Train on all events

# Update apply to work with Series objects
sequences = data.iloc[:, 1:-1].apply(lambda row: tokenizer.texts_to_sequences([' '.join(map(str, row))])[0], axis=1)

padded_sequences = pad_sequences(sequences, maxlen=150, padding='post')

labels = data['malware'].astype(int).values

X = padded_sequences
y = labels

также я использовал этот код для разделения и разделения файлов API VirusShare и VirusSample
dataA = pd.read_csv('VirusShare.csv')
dataB = pd.read_csv('VirusSample.csv')

data = pd.concat([dataA, dataB], ignore_index=True)

df = pd.DataFrame(data)

split_api = df['api'].str.split(',', expand=True)
df_split = pd.concat([df.drop(columns=['api']), split_api], axis=1)

df_split.to_csv('df_split.csv', index=False)

Подробнее здесь: https://stackoverflow.com/questions/792 ... l-training

1733161084

Anonymous

Я пытаюсь изменить строковые значения системных вызовов API на числа, чтобы моя модель научилась классифицировать вредоносное ПО.
У меня уже есть один код, который работает с этим набором данных
/>ссылка: https://github.com/mpasco/MalbehavD-V1
этот набор данных не имеет меток, указывающих тип вредоносного ПО, но если это просто вредоносное ПО,
но когда я пытаюсь использовать то же самое код для формы данных
ссылка: https://github.com/khas-ccip/api_sequences_malware_datasets
это классифицирует вредоносное ПО
Все, что я могу получить, это неуместные значения или все значения Nan, как я и ожидал, должны быть числовыми представлениями вызовов API.
Код, который я использовал для классификации вредоносных программ или нет, и насколько я могу судить, он работает хорошо.
data = pd.read_csv('data.csv' ,header=0)

tokenizer = Tokenizer()

# Convert the values in each row to strings before passing to fit_on_texts
tokenizer.fit_on_texts([' '.join(map(str, row)) for row in data.iloc[:, 1:-1].values])  # Train on all events

# Update apply to work with Series objects
sequences = data.iloc[:, 1:-1].apply(lambda row: tokenizer.texts_to_sequences([' '.join(map(str, row))])[0], axis=1)

padded_sequences = pad_sequences(sequences, maxlen=150, padding='post')

labels = data['malware'].astype(int).values

X = padded_sequences
y = labels

также я использовал этот код для разделения и разделения файлов API VirusShare и VirusSample
dataA = pd.read_csv('VirusShare.csv')
dataB = pd.read_csv('VirusSample.csv')

data = pd.concat([dataA, dataB], ignore_index=True)

df = pd.DataFrame(data)

split_api = df['api'].str.split(',', expand=True)
df_split = pd.concat([df.drop(columns=['api']), split_api], axis=1)

df_split.to_csv('df_split.csv', index=False)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79245054/tokenizing-string-values-for-ai-model-training[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Токенизация английского текста на C#, а не на Python возможна?

Последнее сообщение Anonymous « 30 июн 2024, 20:07
Добавлено в форуме C#

Anonymous » 30 июн 2024, 20:07 » в форуме C#

В нашем программном обеспечении нам приходится анализировать обычный текстовый файл. Сначала нам следует разбить текст на абзацы, затем на предложения, затем на токены. Завершающие шаги (насколько я понимаю) — это стемминг и лемматизация.
Если у нас...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
30 июн 2024, 20:07
Apache Camel — разделение, токенизация и агрегирование не завершаются

Последнее сообщение Anonymous « 11 окт 2024, 18:57
Добавлено в форуме JAVA

Anonymous » 11 окт 2024, 18:57 » в форуме JAVA

У меня возникла проблема с маршрутом Apache Camel после перехода на версию 4.6.0. Проблема в том, что обмен никогда не завершается, а свойство SPLIT_COMPLETE всегда остается ложным. Это приводит к тому, что агрегирование никогда не завершается.
Вот...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 18:57
Apache Camel — разделение, токенизация и агрегирование не завершаются при использовании пула Exchange-Factory

Последнее сообщение Anonymous « 13 окт 2024, 18:47
Добавлено в форуме JAVA

Anonymous » 13 окт 2024, 18:47 » в форуме JAVA

У меня возникла проблема с маршрутом Apache Camel после перехода на версию 4.6.0. Проблема в том, что обмен никогда не устанавливается на выполнение, когда в пуле находится фабрика обмена вместо прототипа значения по умолчанию, а свойство...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
13 окт 2024, 18:47
Apache Camel — разделение, токенизация и агрегирование не завершаются при использовании пула Exchange-Factory

Последнее сообщение Anonymous « 13 окт 2024, 20:21
Добавлено в форуме JAVA

Anonymous » 13 окт 2024, 20:21 » в форуме JAVA

У меня возникла проблема с маршрутом Apache Camel после перехода на версию 4.6.0. Проблема в том, что обмен никогда не устанавливается на выполнение, когда в пуле находится фабрика обмена вместо прототипа значения по умолчанию, а свойство...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
13 окт 2024, 20:21
Соответствие строковых значений в серии pandas из значений в списке

Последнее сообщение Anonymous « 19 апр 2024, 09:52
Добавлено в форуме Python

Anonymous » 19 апр 2024, 09:52 » в форуме Python

Представьте, что у меня есть список, который выглядит следующим образом:
patterns =

И серия панд, которая выглядит так:
data = {
93: 'LLL,HLH,LHL,HHH,LML,LML,HLH,HHH,LLL,LHL,MHM,LLM',
107: 'LML,HLH,HHH,LLL,LHL,MHM,LLL,HHH,LLM,HMH,LLM,HMM',
145:...

0 Ответы

57 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 09:52

Вернуться в «Python»