Я работаю над проектом по очистке и обработке больших набор данных с использованием Python и Pandas. Мой текущий код очень медленный и неэффективен для больших наборов данных. Вот упрощенная версия того, что я делаю:
Вот упрощенная версия моего кода:
Код: Выделить всё
import pandas as pd
import time
# Load the dataset
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student.zip'
start_time = time.time()
df = pd.read_csv(url, compression='zip', sep=';')
# Basic data cleaning
df.dropna(inplace=True)
df['text'] = df['school'].str.lower()
# Processing step
def process_text(text):
result = ''
for char in text:
result = char + result
return result
df['processed_text'] = df['text'].apply(process_text)
processing_time = time.time() - start_time
print("Processing time:", processing_time)
print(df.head())
Проблема: Коду требуется несколько минут для обработки даже небольшой части набора данных.
Вопрос: Как я могу оптимизировать этот код для более эффективной обработки больших наборов данных? Есть предложения по улучшению производительности?
Подробнее здесь: https://stackoverflow.com/questions/786 ... e-datasets