Как изолировать проблемный текст в большом файле CSV с PythonPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как изолировать проблемный текст в большом файле CSV с Python

Сообщение Anonymous »

Я довольно новичок с Python и анализом текста в целом ... работаю над проектом для класса. Я читаю в куче бесплатного текста из файлов .csv, которые поступили из Excel. Есть более 200 000 строк.

Код: Выделить всё

df['Text'].fillna('').apply(str)
df['Text'].str.replace(r"[^a-zA-Z]", " ", regex=True)
df.dropna()
< /code>
Тогда я определил < /p>
def preprocess_text(text):
text = re.sub(r'\d+', '', text)  # Remove numbers
text = text.lower()  # Convert to lowercase
text = text.translate(str.maketrans('', '', string.punctuation))  # Remove punctuation
words = word_tokenize(text)  # Tokenize text
words = [word for word in words if word not in stopwords.words('english')]  # Remove stopwords
return words  # Return list of words
< /code>
Но когда я называю это на своем раме, я получаю < /p>
df['cleaned_text'] = df['Text'].apply(preprocess_text)

AttributeError: 'float' object has no attribute 'lower'
< /code>
Я вернулся и изменил функцию < /p>
def preprocess_text(text):
try:
text = re.sub(r'\d+', '', text)  # Remove numbers
except TypeError:
print(text)
except AttributeError:
print(text)
text = text.lower()  # Convert to lowercase
text = text.translate(str.maketrans('', '', string.punctuation))  # Remove punctuation
words = word_tokenize(text)  # Tokenize text
words = [word for word in words if word not in stopwords.words('english')]  # Remove stopwords
return words  # Return list of words
и текст, который я получаю при возникновении ошибки, - это просто nan
Любые указатели о том, как изолировать, где в этой массе Текст ошибка возникает? Или еще лучше, предварительный шаг, который я могу устранить это?

Подробнее здесь: https://stackoverflow.com/questions/794 ... ith-python
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»