Вот мой код:
Код: Выделить всё
import pandas as pd
from sdv.metadata import Metadata
from sdv.single_table import GaussianCopulaSynthesizer
data = pd.read_csv('file.csv', sep=';')
metadata = Metadata.detect_from_dataframe(
data=data,
table_name='test'
)
synthesizer = GaussianCopulaSynthesizer(metadata)
synthesizer.fit(data)
synthetic_data = synthesizer.sample(10)
synthetic_data.to_csv('synthetic_file.csv', index=False, sep=';')
Код: Выделить всё
4959478426DF15EE67AZBED5B0B99EDB848597F2
AB28A95B91DE6637DE8D7728D6C945EFFC58F029
D304CE66B9204C637C8BA1B75B2952495C66321F
Код: Выделить всё
sdv-id-sVCqLP
sdv-id-CjXnSq
sdv-id-HuiFjs
Код: Выделить всё
metadata.update_column(
table_name='test',
column_name='ID',
sdtype='id',
)
Как я могу заставить SDV генерировать синтетические данные для хеш-подобных полей, пока сохранение логики повторения из исходного набора данных?
Подробнее здесь: https://stackoverflow.com/questions/792 ... hetic-data
Мобильная версия