RegEx: есть ли способ извлечь все подстроки, заключенные в одинарные кавычки, без извлечения подстрок между апострофами? - Цифровое Кемерово

RegEx: есть ли способ извлечь все подстроки, заключенные в одинарные кавычки, без извлечения подстрок между апострофами? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

RegEx: есть ли способ извлечь все подстроки, заключенные в одинарные кавычки, без извлечения подстрок между апострофами?

Цитата

Сообщение Anonymous » 01 авг 2024, 09:49

По сути, у меня есть набор данных, содержащий операторы на английском языке. Некоторые утверждения содержат начальные/конечные знаки препинания, поэтому я хотел бы очистить и стандартизировать их. Критерием стандартизации является то, что все начальные/конечные знаки препинания удалены, первый символ оператора пишется с заглавной буквы, а оператор заканчивается точкой. У меня есть функция, которая делает это и применяет ее к каждой строке набора данных.
Вот фрагмент, если это поможет:

Код: Выделить всё

def normalize_statement(statement):
# remove leading/trailing punctuation and excess whitespace
cleaned = statement.strip(whitespace + punctuation)
cleaned = re.sub(r'\s+', ' ', cleaned)

# capitalize first letter
cleaned = cleaned[0].upper() + cleaned[1:]

# ensure the statement ends with a period
if cleaned and not cleaned.endswith('.'):
cleaned += '.'
return cleaned

Эта функция работает для базовых операторов, но не всегда работает с подстроками, заключенными в двойные или одинарные кавычки, особенно если подстрока в кавычках появляется в начале и/или конце оператора. потому что тогда одна из кавычек будет удалена после удаления ведущей пунктуации (т. е. "это" является утверждением станет "Это" является утверждением"). Целью должно быть сохранение кавычки вокруг любой подстроки после очистки.
Я думал об использовании регулярного выражения для захвата всех подстрок, заключенных в одинарные или двойные кавычки, замените все кавычки подстроки захваченными группами, чтобы удалить кавычки , стандартизируйте оператор, а затем верните подстроки в кавычки на их исходные позиции. Вот обновленная функция:

Код: Выделить всё

def normalize_statement(statement):
# extract any and all substrings enclosed in quotation marks
quoted_pattern = re.compile(r'["\'](.*?)["\']')
quoted_substrings = quoted_pattern.findall(statement)

# replace the quoted substrings with the captured groups
cleaned = re.sub(quoted_pattern, lambda m: m.group(1), statement)

# remove leading/trailing punctuation and excess whitespace
cleaned = cleaned.strip(whitespace + punctuation)
cleaned = re.sub(r'\s+', ' ', cleaned)

# capitalize first letter for languages that use capitalization
cleaned = cleaned[0].upper() + cleaned[1:]

# ensure the statement ends with a period
if cleaned and not cleaned.endswith('.'):
cleaned += '.'

# replace quoted substrings (if any) back into their original positions after cleaning
for quoted_substring in quoted_substrings:
cleaned = re.sub(re.escape(quoted_substring.strip(whitespace + punctuation)), f'\"{quoted_substring}\"', cleaned, flags=re.IGNORECASE)

return cleaned

Хотя шаблон регулярного выражения ["\'](.*?)["\'] иногда работает (т. е. от сотрудников «ожидается», что они будут проявлять «бережливость». ), он не подходит для таких утверждений, как «Нет места лучше дома, подчеркивающего уникальный комфорт собственного окружения». потому что захваченная группа в этом случае будет подстрокой между апострофами: «Нет места лучше дома, что подчеркивает уникальный комфорт человека».
Я хочу, чтобы захватывался только текст между кавычками. — но как мне отличить апострофы от одинарных кавычек в моем шаблоне регулярного выражения? Я не слишком хорошо знаком с регулярными выражениями, поэтому, если у кого-то есть другой подход, я буду очень признателен!

Подробнее здесь: https://stackoverflow.com/questions/788 ... gle-quotat

Реклама

1722494985

Anonymous

По сути, у меня есть набор данных, содержащий операторы на английском языке. Некоторые утверждения содержат начальные/конечные знаки препинания, поэтому я хотел бы очистить и стандартизировать их. Критерием стандартизации является то, что все начальные/конечные знаки препинания удалены, первый символ оператора пишется с заглавной буквы, а оператор заканчивается точкой. У меня есть функция, которая делает это и применяет ее к каждой строке набора данных.
Вот фрагмент, если это поможет:
[code]def normalize_statement(statement):
# remove leading/trailing punctuation and excess whitespace
cleaned = statement.strip(whitespace + punctuation)
cleaned = re.sub(r'\s+', ' ', cleaned)

# capitalize first letter
cleaned = cleaned[0].upper() + cleaned[1:]

# ensure the statement ends with a period
if cleaned and not cleaned.endswith('.'):
cleaned += '.'
return cleaned
[/code]
Эта функция работает для базовых операторов, но не всегда работает с подстроками, заключенными в двойные или одинарные кавычки, особенно если подстрока в кавычках появляется в начале и/или конце оператора. потому что тогда одна из кавычек будет удалена после удаления ведущей пунктуации (т. е. "это" является утверждением станет "Это" является утверждением"). Целью должно быть сохранение кавычки вокруг любой подстроки после очистки.
Я думал об использовании регулярного выражения для захвата всех подстрок, заключенных в одинарные или двойные кавычки, замените все кавычки подстроки захваченными группами, чтобы удалить кавычки , стандартизируйте оператор, а затем верните подстроки в кавычки на их исходные позиции. Вот обновленная функция:
[code]def normalize_statement(statement):
# extract any and all substrings enclosed in quotation marks
quoted_pattern = re.compile(r'["\'](.*?)["\']')
quoted_substrings = quoted_pattern.findall(statement)

# replace the quoted substrings with the captured groups
cleaned = re.sub(quoted_pattern, lambda m: m.group(1), statement)

# remove leading/trailing punctuation and excess whitespace
cleaned = cleaned.strip(whitespace + punctuation)
cleaned = re.sub(r'\s+', ' ', cleaned)

# capitalize first letter for languages that use capitalization
cleaned = cleaned[0].upper() + cleaned[1:]

# ensure the statement ends with a period
if cleaned and not cleaned.endswith('.'):
cleaned += '.'

# replace quoted substrings (if any) back into their original positions after cleaning
for quoted_substring in quoted_substrings:
cleaned = re.sub(re.escape(quoted_substring.strip(whitespace + punctuation)), f'\"{quoted_substring}\"', cleaned, flags=re.IGNORECASE)

return cleaned
[/code]
Хотя шаблон регулярного выражения ["\'](.*?)["\'] иногда работает (т. е. от сотрудников «ожидается», что они будут проявлять «бережливость». ), он не подходит для таких утверждений, как «Нет места лучше дома, подчеркивающего уникальный комфорт собственного окружения». потому что захваченная группа в этом случае будет подстрокой между апострофами: «Нет места лучше дома, что подчеркивает уникальный комфорт человека».
Я хочу, чтобы захватывался только текст между кавычками. — но как мне отличить апострофы от одинарных кавычек в моем шаблоне регулярного выражения? Я не слишком хорошо знаком с регулярными выражениями, поэтому, если у кого-то есть другой подход, я буду очень признателен! 

Подробнее здесь: [url]https://stackoverflow.com/questions/78819189/regex-is-there-a-way-to-extract-all-substrings-wrapped-in-between-single-quotat[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Замените запятые, не заключенные в одинарные кавычки, на символ @.

Последнее сообщение Anonymous « 28 сен 2024, 05:03
Добавлено в форуме Php

Anonymous » 28 сен 2024, 05:03 » в форуме Php

Почему в моем шаблоне регулярного выражения не заменяются все запятые на @, кроме одной в «местоположении, штате»?
$test = preg_replace( #( )( )( )# , $1@$3 , 100,,,'test','two',,'location, state',,[],1 )

Ожидаемое: 100@@@'test'@'two'@@'location,...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
28 сен 2024, 05:03
Экранируйте только одинарные кавычки (оставляйте только двойные кавычки) с помощью htmlspecialchars()

Последнее сообщение Anonymous « 16 апр 2024, 10:52
Добавлено в форуме Php

Anonymous » 16 апр 2024, 10:52 » в форуме Php

Я знаю, что есть и другие способы экранирования только одинарных кавычек (например, этот ответ), но мне кажется, что должен быть способ использовать htmlspecialchars().

По мануалу это должна быть какая-то комбинация их констант, но исходя из их...

0 Ответы

98 Просмотры

Последнее сообщение Anonymous
16 апр 2024, 10:52
Схема извлечения подстроки regex regex java

Последнее сообщение Anonymous « 12 сен 2025, 18:43
Добавлено в форуме JAVA

Anonymous » 12 сен 2025, 18:43 » в форуме JAVA

У меня есть этот текст:

1. тест1; тест2;
2. тест1; тест2;
1) тест1; тест2;
2) тест1; тест2;
1. 1) тест1; тест2;
1) 1. тест1; тест2;
1. тест

Можете ли вы дать мне выражение, используя то, что я могу извлечь Teest1; Тест2; переменной в...

0 Ответы

0 Просмотры

Последнее сообщение Anonymous
12 сен 2025, 18:43
Java Regex выдает все строки, кроме тех, которые заключены в одинарные кавычки

Последнее сообщение Anonymous « 26 ноя 2024, 14:09
Добавлено в форуме JAVA

Anonymous » 26 ноя 2024, 14:09 » в форуме JAVA

Я обращаюсь к вам, так как понял, что Java Regex — не моя чашка чая. Я имею дело со строками и хочу извлечь все строки, кроме тех, которые заключены в кавычки.
Например,
String myString = IF What young > old, 'Price 1', 'Prediction One', 'Mother''s...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 14:09
Java Regex выдает все строки, кроме тех, которые заключены в одинарные кавычки

Последнее сообщение Anonymous « 26 ноя 2024, 14:54
Добавлено в форуме JAVA

Anonymous » 26 ноя 2024, 14:54 » в форуме JAVA

Я обращаюсь к вам, так как понял, что Java Regex — не моя чашка чая. Я имею дело со строками и хочу извлечь все строки, кроме тех, которые заключены в кавычки.
Например,
String myString = IF What young > old, 'Price 1', 'Prediction One', 'Mother''s...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 14:54

Вернуться в «Python»

Programmiererforum