Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python? - Цифровое Кемерово

Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python?

Цитата

Сообщение Anonymous » 09 окт 2024, 06:49

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:

ID
cond_1 (логическое значение: True/False)
cond_2 (логическое значение: True/False)

При выборке подмножества мне необходимо убедиться, что следующие условия выполнены:

Количество значений True в cond_1 должно быть ровно 181.
Число значений True в cond_2 должно быть ровно 181.
Количество значений False в cond_1< /code> должно быть ровно 485.
Количество значений False в cond_2 должно быть ровно 485.
Общее количество образцов в подмножестве должно составлять ровно 666.

Дополнительно:

Поскольку это случайная выборка, подмножество не должно полностью состоять из выборок, в которых присутствуют как cond_1, так и cond_2 либо оба True, либо оба False. Должно быть сочетание True/False или False/True.

Существует ли рекомендуемый способ достижения такого типа ограниченная выборка в Python?
Будем очень признательны за любые примеры кода или библиотеки, которые могут помочь.
Заранее спасибо.
import pandas as pd
import numpy as np

df = pd.DataFrame({
'ID': range(1, 2501),
'cond_1': np.random.choice([True, False], size=2500),
'cond_2': np.random.choice([True, False], size=2500)
})

# Create the groups based on conditions
group_cond1_true = df[df['cond_1'] == True]
group_cond1_false = df[df['cond_1'] == False]

group_cond2_true = df[df['cond_2'] == True]
group_cond2_false = df[df['cond_2'] == False]

# Sample from each group to meet constraints
sample_cond1_true = group_cond1_true.sample(n=181, random_state=42)
sample_cond1_false = group_cond1_false.sample(n=485, random_state=42)

sample_cond2_true = group_cond2_true.sample(n=181, random_state=42)
sample_cond2_false = group_cond2_false.sample(n=485, random_state=42)

# Combine the samples to create the final dataset
df_extracted = pd.concat([sample_cond1_true, sample_cond1_false, sample_cond2_true, sample_cond2_false]).drop_duplicates()

# Check if the conditions are met
print(f"Total length: {len(df_extracted)}")
print(f"cond_1 True count: {df_extracted['cond_1'].sum()}")
print(f"cond_2 True count: {df_extracted['cond_2'].sum()}")
print(f"cond_1 False count: {(~df_extracted['cond_1']).sum()}")
print(f"cond_2 False count: {(~df_extracted['cond_2']).sum()}")
print()
count = df_extracted.groupby(['cond_1', 'cond_2']).size()
print("Extracted counts:\n", count)

Приведенный выше код генерирует df_extracted размером 1148, а не 666.
Total length: 1148
cond_1 True count: 454
cond_2 True count: 460
cond_1 False count: 694
cond_2 False count: 688

Extracted counts:
cond_1 cond_2
False False 396
True 298
True False 292
True 162
dtype: int64

Подробнее здесь: https://stackoverflow.com/questions/790 ... ean-condit

Реклама

1728445768

Anonymous

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:
[list]
[*]ID
[*]cond_1 (логическое значение: True/False)
[*]cond_2 (логическое значение: True/False)
[/list]
При выборке подмножества мне необходимо убедиться, что следующие условия выполнены:
[list]
[*]Количество значений True в cond_1 должно быть ровно [b]181[/b].
[*] Число значений True в cond_2 должно быть ровно [b]181[/b].
[*]Количество значений False в cond_1< /code> должно быть ровно [b]485[/b].
[*]Количество значений False в cond_2 должно быть ровно [b]485.
[*]Общее количество образцов в подмножестве должно составлять ровно 666[/b].
[/list]
Дополнительно:
[list]
[*]Поскольку это случайная выборка, подмножество не должно полностью состоять из выборок, в которых присутствуют как cond_1, так и cond_2 либо оба True, либо оба False. Должно быть сочетание True/False или False/True.
[/list]
Существует ли рекомендуемый способ достижения такого типа ограниченная выборка в Python?
Будем очень признательны за любые примеры кода или библиотеки, которые могут помочь.
Заранее спасибо.
import pandas as pd
import numpy as np

df = pd.DataFrame({
'ID': range(1, 2501),
'cond_1': np.random.choice([True, False], size=2500),
'cond_2': np.random.choice([True, False], size=2500)
})

# Create the groups based on conditions
group_cond1_true = df[df['cond_1'] == True]
group_cond1_false = df[df['cond_1'] == False]

group_cond2_true = df[df['cond_2'] == True]
group_cond2_false = df[df['cond_2'] == False]

# Sample from each group to meet constraints
sample_cond1_true = group_cond1_true.sample(n=181, random_state=42)
sample_cond1_false = group_cond1_false.sample(n=485, random_state=42)

sample_cond2_true = group_cond2_true.sample(n=181, random_state=42)
sample_cond2_false = group_cond2_false.sample(n=485, random_state=42)

# Combine the samples to create the final dataset
df_extracted = pd.concat([sample_cond1_true, sample_cond1_false, sample_cond2_true, sample_cond2_false]).drop_duplicates()

# Check if the conditions are met
print(f"Total length: {len(df_extracted)}")
print(f"cond_1 True count: {df_extracted['cond_1'].sum()}")
print(f"cond_2 True count: {df_extracted['cond_2'].sum()}")
print(f"cond_1 False count: {(~df_extracted['cond_1']).sum()}")
print(f"cond_2 False count: {(~df_extracted['cond_2']).sum()}")
print()
count = df_extracted.groupby(['cond_1', 'cond_2']).size()
print("Extracted counts:\n", count)

Приведенный выше код генерирует df_extracted размером 1148, а не 666.
Total length: 1148
cond_1 True count: 454
cond_2 True count: 460
cond_1 False count: 694
cond_2 False count: 688

Extracted counts:
cond_1  cond_2
False   False     396
True      298
True    False     292
True      162
dtype: int64
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79068441/how-to-randomly-sample-a-dataset-with-specific-constraints-on-two-boolean-condit[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python?

Последнее сообщение Anonymous « 09 окт 2024, 10:09
Добавлено в форуме Python

Anonymous » 09 окт 2024, 10:09 » в форуме Python

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:

ID
cond_1...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 10:09
Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python?

Последнее сообщение Anonymous « 09 окт 2024, 11:30
Добавлено в форуме Python

Anonymous » 09 окт 2024, 11:30 » в форуме Python

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:

ID
cond_1...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 11:30
Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python?

Последнее сообщение Anonymous « 09 окт 2024, 13:21
Добавлено в форуме Python

Anonymous » 09 окт 2024, 13:21 » в форуме Python

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:

ID
cond_1...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 13:21
Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python?

Последнее сообщение Anonymous « 09 окт 2024, 23:16
Добавлено в форуме Python

Anonymous » 09 окт 2024, 23:16 » в форуме Python

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:

ID
cond_1...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 23:16
Скрипт Python случайным образом терпит неудачу с использованием Pandas случайным образом выходит из строя

Последнее сообщение Anonymous « 27 май 2025, 21:07
Добавлено в форуме Python

Anonymous » 27 май 2025, 21:07 » в форуме Python

У меня есть сценарий, который я запускаю локально, который открывает файл Excel, который у меня есть, добавляет в него некоторые данные, а затем сохраняет его снова. Большую часть времени он работает нормально, но на прошлой неделе я начал получать...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
27 май 2025, 21:07

Вернуться в «Python»

Programmiererforum