Как оптимизировать код Python для эффективной обработки больших наборов данных? Моя текущая реализация слишком медленная

Как оптимизировать код Python для эффективной обработки больших наборов данных? Моя текущая реализация слишком медленная ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как оптимизировать код Python для эффективной обработки больших наборов данных? Моя текущая реализация слишком медленная

Цитата

Сообщение Anonymous » 02 июл 2024, 01:40

Я новичок в вопросах переполнения стека. Мне нужна ваша поддержка и руководство. Я относительно новичок в разработке подсказок с помощью Python и недавно начал проект, который включает обработку больших наборов данных для оптимизации подсказок модели ИИ.
Я работаю над проектом по очистке и обработке больших набор данных с использованием Python и Pandas. Мой текущий код очень медленный и неэффективен для больших наборов данных. Вот упрощенная версия того, что я делаю:
Вот упрощенная версия моего кода:

Код: Выделить всё

import pandas as pd
import time
import requests
from io import BytesIO
from zipfile import ZipFile

# Load the dataset
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student.zip'
start_time = time.perf_counter()

response = requests.get(url)
with ZipFile(BytesIO(response.content)) as thezip:
with thezip.open('student-mat.csv') as thefile:
df = pd.read_csv(thefile, sep=';')

# Basic data cleaning
df = df.dropna()
df['text'] = df['school'].str.lower()

# Processing step
df['processed_text'] = df['text'].apply(lambda text: text[::-1])

processing_time = time.perf_counter() - start_time

print("Processing time:", processing_time)
print(df.head())

Вот шаги, которые я предпринял:
Использовал библиотеку запросов для загрузки zip-файла.
Извлекли содержимое с помощью ZipFile и загрузили CSV-файл в DataFrame.
Очистили данные, удалив строки с отсутствующими значениями.
Преобразовали столбец «школа» в нижний регистр и перевернули текст с помощью лямбда-функции. .
Проблема:
Пока этот код работает, мне нужен совет по дальнейшей оптимизации или улучшению. В частности:
Существуют ли более эффективные методы загрузки и загрузки набора данных?
Как я могу улучшить этапы очистки данных и обработки текста?
Существуют ли какие-либо передовые методы, которым мне следует следовать, чтобы сделать это код станет более эффективным и читабельным?
Чего я ожидаю:
Предложения по улучшению производительности кода. Рекомендации по более эффективной обработке данных. Рекомендации по работе с большими наборами данных и обработке текста в Pandas.

Подробнее здесь: https://stackoverflow.com/questions/786 ... my-current

1719873652

Anonymous

Я новичок в вопросах переполнения стека. Мне нужна ваша поддержка и руководство. Я относительно новичок в разработке подсказок с помощью Python и недавно начал проект, который включает обработку больших наборов данных для оптимизации подсказок модели ИИ.
Я работаю над проектом по очистке и обработке больших набор данных с использованием Python и Pandas. Мой текущий код очень медленный и неэффективен для больших наборов данных. Вот упрощенная версия того, что я делаю:
Вот упрощенная версия моего кода:
[code]import pandas as pd
import time
import requests
from io import BytesIO
from zipfile import ZipFile

# Load the dataset
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student.zip'
start_time = time.perf_counter()

response = requests.get(url)
with ZipFile(BytesIO(response.content)) as thezip:
with thezip.open('student-mat.csv') as thefile:
df = pd.read_csv(thefile, sep=';')

# Basic data cleaning
df = df.dropna()
df['text'] = df['school'].str.lower()

# Processing step
df['processed_text'] = df['text'].apply(lambda text: text[::-1])

processing_time = time.perf_counter() - start_time

print("Processing time:", processing_time)
print(df.head())
[/code]
[b]Вот шаги, которые я предпринял:[/b]
Использовал библиотеку запросов для загрузки zip-файла.
Извлекли содержимое с помощью ZipFile и загрузили CSV-файл в DataFrame.
Очистили данные, удалив строки с отсутствующими значениями.
Преобразовали столбец «школа» в нижний регистр и перевернули текст с помощью лямбда-функции. .
[b]Проблема:[/b]
Пока этот код работает, мне нужен совет по дальнейшей оптимизации или улучшению. В частности:
Существуют ли более эффективные методы загрузки и загрузки набора данных?
Как я могу улучшить этапы очистки данных и обработки текста?
Существуют ли какие-либо передовые методы, которым мне следует следовать, чтобы сделать это код станет более эффективным и читабельным?
[b]Чего я ожидаю:[/b]
Предложения по улучшению производительности кода. Рекомендации по более эффективной обработке данных. Рекомендации по работе с большими наборами данных и обработке текста в Pandas. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78693939/how-do-i-optimize-python-code-to-efficiently-process-large-datasets-my-current[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как оптимизировать скрипт Python для эффективной обработки больших файлов CSV?

Последнее сообщение Anonymous « 16 дек 2024, 13:10
Добавлено в форуме Python

Anonymous » 16 дек 2024, 13:10 » в форуме Python

Я работаю над проектом Python, который включает обработку больших файлов CSV (размером 2–5 ГБ). Сценарий читает файл CSV, выполняет преобразование данных и записывает выходные данные в новый файл. Однако он работает очень медленно и потребляет много...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
16 дек 2024, 13:10
Как оптимизировать скрипт Python для эффективной обработки больших файлов CSV?

Последнее сообщение Anonymous « 24 дек 2024, 00:52
Добавлено в форуме Python

Anonymous » 24 дек 2024, 00:52 » в форуме Python

Я работаю над проектом Python, который включает обработку больших файлов CSV (размером 2–5 ГБ). Сценарий читает файл CSV, выполняет преобразование данных и записывает выходные данные в новый файл. Однако он работает очень медленно и потребляет много...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
24 дек 2024, 00:52
Как оптимизировать медленный код Python для обработки больших наборов данных? [дубликат]

Последнее сообщение Anonymous « 01 июл 2024, 22:55
Добавлено в форуме Python

Anonymous » 01 июл 2024, 22:55 » в форуме Python

Я новичок в вопросах переполнения стека. Мне нужна ваша поддержка и руководство. Я относительно новичок в разработке подсказок с помощью Python и недавно начал проект, который включает обработку больших наборов данных для оптимизации подсказок...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 22:55
Как оптимизировать нечеткое сопоставление для больших наборов данных в Python?

Последнее сообщение Anonymous « 31 окт 2024, 10:10
Добавлено в форуме Python

Anonymous » 31 окт 2024, 10:10 » в форуме Python

У меня есть два файла:

Input_file.xlsx, содержащий 9008 строк и 7 столбцов.
CP_Data. xlsx — содержит 149 987 строк и 7 столбцов.

Мне нужно выполнить нечеткое сопоставление между этими двумя файлами как можно эффективнее и точнее, уделяя особое...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 10:10
Реализация генерации исходного кода JSON в предварительной версии .Net 9 для эффективной обработки в реальном времени в

Последнее сообщение Anonymous « 02 ноя 2024, 11:43
Добавлено в форуме C#

Anonymous » 02 ноя 2024, 11:43 » в форуме C#

Я оцениваю возможности генерации исходного кода JSON в .Net 9 Preview, чтобы улучшить обработку данных Интернета вещей в реальном времени для проекта. Контекст следующий:

Наши устройства Iot отправляют данные датчиков в формате JSON каждые...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
02 ноя 2024, 11:43

Вернуться в «Python»