Набор данных HuggingFace: загрузка наборов данных с различным набором столбцов.Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Набор данных HuggingFace: загрузка наборов данных с различным набором столбцов.

Сообщение Anonymous »

Вот как я загружаю наборы данных для обучения и тестирования с помощью HF:

Код: Выделить всё

dataset = {name.replace('/', '.'): f'{name}/*.parquet' for name in ["train", "test"]}
dataset = load_dataset("parquet", data_files=dataset)
Однако есть проблема: в моем наборе данных есть дополнительные столбцы, которых нет в тесте (и мне нужно загрузить их, чтобы подготовить данные обучения.
Поскольку столбцы не совпадают, при загрузке я получаю сообщение об ошибке:

Код: Выделить всё

datasets.table.CastError: Couldn't cast
column1: string
column2: list
child 0, item: string
column3: list
child 0, item: int32
__index_level_0__: int64
-- schema metadata --
pandas: '{"index_columns": ["__index_level_0__"], "column_indexes": [{"na' + 1438
to
{'column1': Value(dtype='string', id=None), 'column2': Sequence(feature=Value(dtype='string', id=None), length=-1, id=None), '__index_level_0__': Value(dtype='int64', id=None)}
поскольку имена столбцов не совпадают ( отсутствует).
Как правильно загрузить обучение и тестирование с разным набором столбцов?

Подробнее здесь: https://stackoverflow.com/questions/792 ... of-columns
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»