Каковы некоторые распространенные ошибки при оптимизации кода Python для больших наборов данных

Каковы некоторые распространенные ошибки при оптимизации кода Python для больших наборов данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Каковы некоторые распространенные ошибки при оптимизации кода Python для больших наборов данных

Цитата

Сообщение Anonymous » 02 июл 2024, 00:54

Я новичок в вопросах переполнения стека. Мне нужна ваша поддержка и руководство. Я относительно новичок в разработке подсказок с помощью Python и недавно начал проект, который включает обработку больших наборов данных для оптимизации подсказок модели ИИ.
Я работаю над проектом по очистке и обработке больших набор данных с использованием Python и Pandas. Мой текущий код очень медленный и неэффективен для больших наборов данных. Вот упрощенная версия того, что я делаю:
Вот упрощенная версия моего кода:

Код: Выделить всё

import pandas as pd
import time

# Load the dataset
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student.zip'
start_time = time.time()
df = pd.read_csv(url, compression='zip', sep=';')

# Basic data cleaning
df.dropna(inplace=True)
df['text'] = df['school'].str.lower()

# Processing step
def process_text(text):
result = ''
for char in text:
result = char + result
return result

df['processed_text'] = df['text'].apply(process_text)

processing_time = time.time() - start_time

print("Processing time:", processing_time)
print(df.head())

Функцияprocess_text переворачивает каждую строку посимвольно, что делает код очень медленным.
Проблема: Коду требуется несколько минут для обработки даже небольшой части набора данных.
Вопрос: Как я могу оптимизировать этот код для более эффективной обработки больших наборов данных? Есть предложения по улучшению производительности?

Подробнее здесь: https://stackoverflow.com/questions/786 ... e-datasets

1719870848

Anonymous

Я новичок в вопросах переполнения стека. Мне нужна ваша поддержка и руководство. Я относительно новичок в разработке подсказок с помощью Python и недавно начал проект, который включает обработку больших наборов данных для оптимизации подсказок модели ИИ.
Я работаю над проектом по очистке и обработке больших набор данных с использованием Python и Pandas. Мой текущий код очень медленный и неэффективен для больших наборов данных. Вот упрощенная версия того, что я делаю:
Вот упрощенная версия моего кода:
[code]import pandas as pd
import time

# Load the dataset
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student.zip'
start_time = time.time()
df = pd.read_csv(url, compression='zip', sep=';')

# Basic data cleaning
df.dropna(inplace=True)
df['text'] = df['school'].str.lower()

# Processing step
def process_text(text):
result = ''
for char in text:
result = char + result
return result

df['processed_text'] = df['text'].apply(process_text)

processing_time = time.time() - start_time

print("Processing time:", processing_time)
print(df.head())
[/code]
Функцияprocess_text переворачивает каждую строку посимвольно, что делает код очень медленным.
[b]Проблема: Коду требуется несколько минут для обработки даже небольшой части набора данных.
Вопрос[/b]: Как я могу оптимизировать этот код для более эффективной обработки больших наборов данных? Есть предложения по улучшению производительности? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78693939/what-are-some-common-pitfalls-when-optimizing-python-code-for-large-datasets[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Каковы некоторые распространенные подходы к динамическому созданию пользовательского интерфейса в Angular для специфичны

Последнее сообщение Anonymous « 20 сен 2024, 10:15
Добавлено в форуме C#

Anonymous » 20 сен 2024, 10:15 » в форуме C#

Я работаю над проектом Angular с .Net, где разные клиенты (в разных средах) имеют уникальные требования к пользовательскому интерфейсу, такие как различные типы полей (например, раскрывающийся список или текстовое поле), необязательные поля и...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 10:15
Каковы распространенные причины ошибок сегментации при использовании map в C++? [закрыто]

Последнее сообщение Anonymous « 26 май 2024, 01:33
Добавлено в форуме C++

Anonymous » 26 май 2024, 01:33 » в форуме C++

В проекте, который я недавно писал, создание новой карты внутри определенной функции и добавление к ней двух элементов приводит к ошибке сегментации. Эти же строки (совершенно не связанные с остальной частью программы) совершенно нормально...

0 Ответы

49 Просмотры

Последнее сообщение Anonymous
26 май 2024, 01:33
Каковы распространенные типы ошибок при программировании на Java и рекомендуемые действия по диагностике и устранению ка

Последнее сообщение Anonymous « 20 ноя 2024, 00:34
Добавлено в форуме JAVA

Anonymous » 20 ноя 2024, 00:34 » в форуме JAVA

Каковы распространенные типы ошибок при программировании на Java и рекомендуемые действия по диагностике и устранению каждого типа? включите ссылки или примеры. Если возможно, включите ссылки или примеры

Подробнее здесь:

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
20 ноя 2024, 00:34
Перечислите все доступные имена наборов данных, содержащиеся в наборе данных наборов данных Hugginface.

Последнее сообщение Anonymous « 11 окт 2024, 19:56
Добавлено в форуме Python

Anonymous » 11 окт 2024, 19:56 » в форуме Python

Я хочу знать, какие наборы данных включены, например. эта коллекция наборов данных Huggingface:

m4_daily и weatherbench_daily упоминаются явно, но их должно быть больше .
Меня не интересует список всех таких коллекций.
Я получаю список через...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 19:56
C# Компилятор - Какие оптимизации выполняются с включенным флагом «Оптимизации кода»? [закрыто]

Последнее сообщение Anonymous « 08 фев 2025, 19:13
Добавлено в форуме C#

Anonymous » 08 фев 2025, 19:13 » в форуме C#

Я планирую получить некоторое представление о использовании наследования для систем .NET, написанных в C#. Я хочу проанализировать промежуточный код языка вместо кода C#, чтобы сделать возможным также посмотреть накомпилированный код. Существует ли...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
08 фев 2025, 19:13

Вернуться в «Python»