Поведение проверки Pandera для случаев неудачи NAN

Поведение проверки Pandera для случаев неудачи NAN ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Поведение проверки Pandera для случаев неудачи NAN

Цитата

Сообщение Anonymous » 12 июн 2025, 16:01

Предположим, что мы используем минимальный пример для проверки DataFrame Panderas (см. Этот пост Stackoverflow): < /p>

Код: Выделить всё

import numpy as np
import pandas as pd
import pandera as pa

dataframe = pd.DataFrame({'column_A': ['ABC company', 'BBB company', 'ABC company', 'CCC company'],
'column_B': ['1000', np.NaN, '2000', np.NaN]
})

# define your dataframe level test
check_AB = pa.Check(
lambda df: (df['column_A'].str.contains('ABC')) & (~df['column_B'].isna()),
name='check_AB'
)

schema = pa.DataFrameSchema(
columns={
'column_A': pa.Column(pa.String),
'column_B': pa.Column(pa.String, nullable=True)
},
checks=check_AB  # = 7),
name='check_AB'
)

Опять же, только не нановые значения сообщаются среди случаев неудачи:

Мы можем видеть это в самой объекте ошибки (см.

Код: Выделить всё

try: schema.validate(dataframe, lazy=True)
except pa.errors.SchemaErrors as e: e2 = e; print(e2.failure_cases)

Наконец, если все случаи сбоя являются NANS, Pandera не дает ошибки валидации:

Код: Выделить всё

dataframe = pd.DataFrame({'column_A': ['ABC company', np.nan, 'ABC company', np.nan],
'column_B': [1000, np.NaN, 2000, np.nan]
})

# define your dataframe level test
check_AB = pa.Check(
lambda df: (df['column_A'].str.contains('ABC')) & (df['column_B'] >= 7),
name='check_AB'
)

schema = pa.DataFrameSchema(
columns={
'column_A': pa.Column(pa.String, nullable=True),
'column_B': pa.Column(pa.Float, nullable=True)
},
checks=check_AB  # 

Подробнее здесь: [url]https://stackoverflow.com/questions/79663583/pandera-validation-behavior-for-nan-failure-cases[/url]

1749733262

Anonymous

 Предположим, что мы используем минимальный пример для проверки DataFrame Panderas (см. Этот пост Stackoverflow): < /p>
[code]import numpy as np
import pandas as pd
import pandera as pa

dataframe = pd.DataFrame({'column_A': ['ABC company', 'BBB company', 'ABC company', 'CCC company'],
'column_B': ['1000', np.NaN, '2000', np.NaN]
})

# define your dataframe level test
check_AB = pa.Check(
lambda df: (df['column_A'].str.contains('ABC')) & (~df['column_B'].isna()),
name='check_AB'
)

schema = pa.DataFrameSchema(
columns={
'column_A': pa.Column(pa.String),
'column_B': pa.Column(pa.String, nullable=True)
},
checks=check_AB  # = 7),
name='check_AB'
)
[/code]
Опять же, только не нановые значения сообщаются среди случаев неудачи:
 
Мы можем видеть это в самой объекте ошибки (см.[code]try: schema.validate(dataframe, lazy=True)
except pa.errors.SchemaErrors as e: e2 = e; print(e2.failure_cases)
[/code]
 
Наконец, если все случаи сбоя являются NANS, Pandera не дает ошибки валидации: 
[code]dataframe = pd.DataFrame({'column_A': ['ABC company', np.nan, 'ABC company', np.nan],
'column_B': [1000, np.NaN, 2000, np.nan]
})

# define your dataframe level test
check_AB = pa.Check(
lambda df: (df['column_A'].str.contains('ABC')) & (df['column_B'] >= 7),
name='check_AB'
)

schema = pa.DataFrameSchema(
columns={
'column_A': pa.Column(pa.String, nullable=True),
'column_B': pa.Column(pa.Float, nullable=True)
},
checks=check_AB  # 

Подробнее здесь: [url]https://stackoverflow.com/questions/79663583/pandera-validation-behavior-for-nan-failure-cases[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Является ли number ("nan") = NAN, потому что JS распознает «NAN» как значение типа номера или потому, что это строка, а

Последнее сообщение Anonymous « 30 апр 2025, 09:46
Добавлено в форуме Javascript

Anonymous » 30 апр 2025, 09:46 » в форуме Javascript

Например, число («бесконечность») = бесконечность, потому что он распознает его как число типов, поэтому мне было интересно, если номер («NAN») = NAN по той же причине, по которой число («картофель») = NAN или потому, что он распознает его как...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
30 апр 2025, 09:46
Для запуска тестовых случаев параллельно и достичь изоляции данных, где каждый из тестовых случаев разделяет одну и ту ж

Последнее сообщение Anonymous « 11 апр 2025, 22:00
Добавлено в форуме JAVA

Anonymous » 11 апр 2025, 22:00 » в форуме JAVA

В настоящее время я работаю над фреймворком Java и Testng. Вот сначала мы определяем модель данных, такую как модель данных Erwin, с источником, целями и логикой преобразования. Затем во время выполнения мы публикуем данные по темам KAFKA и на...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
11 апр 2025, 22:00
Как использовать Pandera для перекрестной проверки, присутствуют ли некоторые подстроки в одном столбце в другом столбце

Последнее сообщение Anonymous « 17 сен 2024, 17:48
Добавлено в форуме Python

Anonymous » 17 сен 2024, 17:48 » в форуме Python

У меня есть такая схема DataFrameSchema Pandas:
Schema = DataFrameSchema(
columns={
'Complete_Name': Column(name='Complete_Name', dtype='string', nullable=True),
'Surname': Column(name='Surname', dtype='string', nullable=True),
},...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
17 сен 2024, 17:48
Оптимизация функции проверки достоверности pandera Polars

Последнее сообщение Anonymous « 12 окт 2024, 23:02
Добавлено в форуме Python

Anonymous » 12 окт 2024, 23:02 » в форуме Python

Я тестирую переход на поляры с панд и столкнулся с проблемами производительности, которых не ожидал. Надеюсь, это просто проблема незнания действительно оптимизированного способа проверки данных с использованием ленивых фреймов.
Вот одна из...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
12 окт 2024, 23:02
Как вернуть NaN, если все значения равны NaN, используя функцию agg(), указывающую выходные столбцы агрегирования

Последнее сообщение Anonymous « 02 июн 2024, 06:25
Добавлено в форуме Python

Anonymous » 02 июн 2024, 06:25 » в форуме Python

У меня есть такой фрейм данных:
data = {'Integers': ,
'AllNaN': }
df = pd.DataFrame(data)

Я хочу вернуть NaN при выполнении агрегирования сумм в датаграмме. Здесь есть решения, советующие использовать agg(pd.Series.sum, min_count=1). Однако мои...

0 Ответы

82 Просмотры

Последнее сообщение Anonymous
02 июн 2024, 06:25

Вернуться в «Python»