Как изолировать проблемный текст в большом файле CSV с Python

Как изолировать проблемный текст в большом файле CSV с Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как изолировать проблемный текст в большом файле CSV с Python

Цитата

Сообщение Anonymous » 13 фев 2025, 19:04

Я довольно новичок с Python и анализом текста в целом ... работаю над проектом для класса. Я читаю в куче бесплатного текста из файлов .csv, которые поступили из Excel. Есть более 200 000 строк.

Код: Выделить всё

df['Text'].fillna('').apply(str)
df['Text'].str.replace(r"[^a-zA-Z]", " ", regex=True)
df.dropna()
< /code>
Тогда я определил < /p>
def preprocess_text(text):
text = re.sub(r'\d+', '', text)  # Remove numbers
text = text.lower()  # Convert to lowercase
text = text.translate(str.maketrans('', '', string.punctuation))  # Remove punctuation
words = word_tokenize(text)  # Tokenize text
words = [word for word in words if word not in stopwords.words('english')]  # Remove stopwords
return words  # Return list of words
< /code>
Но когда я называю это на своем раме, я получаю < /p>
df['cleaned_text'] = df['Text'].apply(preprocess_text)

AttributeError: 'float' object has no attribute 'lower'
< /code>
Я вернулся и изменил функцию < /p>
def preprocess_text(text):
try:
text = re.sub(r'\d+', '', text)  # Remove numbers
except TypeError:
print(text)
except AttributeError:
print(text)
text = text.lower()  # Convert to lowercase
text = text.translate(str.maketrans('', '', string.punctuation))  # Remove punctuation
words = word_tokenize(text)  # Tokenize text
words = [word for word in words if word not in stopwords.words('english')]  # Remove stopwords
return words  # Return list of words

и текст, который я получаю при возникновении ошибки, - это просто nan
Любые указатели о том, как изолировать, где в этой массе Текст ошибка возникает? Или еще лучше, предварительный шаг, который я могу устранить это?

Подробнее здесь: https://stackoverflow.com/questions/794 ... ith-python

1739462663

Anonymous

 Я довольно новичок с Python и анализом текста в целом ... работаю над проектом для класса.  Я читаю в куче бесплатного текста из файлов .csv, которые поступили из Excel.  Есть более 200 000 строк.[code]df['Text'].fillna('').apply(str)
df['Text'].str.replace(r"[^a-zA-Z]", " ", regex=True)
df.dropna()
< /code>
Тогда я определил < /p>
def preprocess_text(text):
text = re.sub(r'\d+', '', text)  # Remove numbers
text = text.lower()  # Convert to lowercase
text = text.translate(str.maketrans('', '', string.punctuation))  # Remove punctuation
words = word_tokenize(text)  # Tokenize text
words = [word for word in words if word not in stopwords.words('english')]  # Remove stopwords
return words  # Return list of words
< /code>
Но когда я называю это на своем раме, я получаю < /p>
df['cleaned_text'] = df['Text'].apply(preprocess_text)

AttributeError: 'float' object has no attribute 'lower'
< /code>
Я вернулся и изменил функцию < /p>
def preprocess_text(text):
try:
text = re.sub(r'\d+', '', text)  # Remove numbers
except TypeError:
print(text)
except AttributeError:
print(text)
text = text.lower()  # Convert to lowercase
text = text.translate(str.maketrans('', '', string.punctuation))  # Remove punctuation
words = word_tokenize(text)  # Tokenize text
words = [word for word in words if word not in stopwords.words('english')]  # Remove stopwords
return words  # Return list of words
[/code]
и текст, который я получаю при возникновении ошибки, - это просто nan  
Любые указатели о том, как изолировать, где в этой массе Текст ошибка возникает?  Или еще лучше, предварительный шаг, который я могу устранить это?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79436968/how-to-isolate-problematic-text-in-a-large-csv-file-with-python[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Перебирайте строки, чтобы получить повторяющиеся наборы данных в большом файле .csv и отобразить результаты.

Последнее сообщение Anonymous « 23 сен 2024, 13:00
Добавлено в форуме Python

Anonymous » 23 сен 2024, 13:00 » в форуме Python

Я только начал изучать Python, но для моего текущего задания мне нужно проанализировать и визуализировать массу данных. Эти данные хранятся в файлах .csv, которые впоследствии объединяются друг в друга. Это приводит к тому, что подмножества данных...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 13:00
Читать и изменить только имена столбцов в очень большом файле CSV или Parquet, хранящихся в S3

Последнее сообщение Anonymous « 17 июл 2025, 21:07
Добавлено в форуме Python

Anonymous » 17 июл 2025, 21:07 » в форуме Python

У меня очень большой файл CSV или Parquet, хранящийся в AWS S3, я хочу переименовать несколько столбцов, однако я не хочу читать весь файл, потому что он очень большой (несколько туберкулеза), поэтому мне нужно будет загружать весь файл, а затем...

0 Ответы

50 Просмотры

Последнее сообщение Anonymous
17 июл 2025, 21:07
Запуск jar в Linux Проблемный кадр: libgpiod [закрыто]

Последнее сообщение Anonymous « 13 апр 2024, 11:05
Добавлено в форуме Linux

Anonymous » 13 апр 2024, 11:05 » в форуме Linux

Пытаюсь запустить простое приложение в ОС Raspberry, чтобы оно мигало светодиодом.
Jar, упакованный с помощью maven (пакет mvn clean), на моем рабочем компьютере с Windows 10.
Этот jar перенесен на мой Raspberry Pi Zero 2 w (через git). Он...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
13 апр 2024, 11:05
SIGSEGV, проблемный кадр V libjvm.so, программа завершена с сигналом SIGABRT

Последнее сообщение Anonymous « 01 июл 2024, 03:16
Добавлено в форуме JAVA

Anonymous » 01 июл 2024, 03:16 » в форуме JAVA

Итак, я пытаюсь разместить сервер Minecraft Forge на выделенном компьютере под управлением Debian 12 и Java 17.0.11
Ошибка выполнения Java:
# A fatal error has been detected by the Java Runtime Environment:
#
# SIGSEGV (0xb) at...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 03:16
SIGSEGV, проблемный кадр V libjvm.so, программа завершена с сигналом SIGABRT

Последнее сообщение Anonymous « 01 июл 2024, 03:16
Добавлено в форуме Linux

Anonymous » 01 июл 2024, 03:16 » в форуме Linux

Итак, я пытаюсь разместить сервер Minecraft Forge на выделенном компьютере под управлением Debian 12 и Java 17.0.11
Ошибка выполнения Java:
# A fatal error has been detected by the Java Runtime Environment:
#
# SIGSEGV (0xb) at...

0 Ответы

40 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 03:16

Вернуться в «Python»