Таблица 1: Это образец текст 2 и некоторый дефис - (аббревиатура) < /p>
Таблица 1 Это образец текста 2 и некоторый дефис - (аббревиатура)
Таблица 1-2-1: это образец текста 2 и некоторых дефиса - (аббревиатура)
Аналогично < /p>
Рисунок 1-2: Это образец текст 2 и некоторый дефис - (аббревиатура) < /p>
Рисунок 1: Это образец текста 2 и некоторый дефис - (аббревиатура) < /p>
Рисунок 1 Это образец текст 2 и некоторый дефис - (аббревиатура) < /p>
< P> Рисунок 1-2-1: Это образец текста 2 и некоторый дефис-(аббревиатура) < /p>
Я попробовал следующий подход < /p>
Код: Выделить всё
import re
re.sub(r'^Table ()|([0-9]+[-][0-9]+|[0-9]+|[0-9 ]+)', " ", text_to_search)
re.sub(r'^Figure ()|([0-9]+[-][0-9]+|[0-9]+|[0-9 ]+)', " ", text_to_search)
< /code>
Ну, это не очень хороший подход, также стремясь устранить зависимость таблицы и рисунка.
Пожалуйста, предложите. Заранее спасибо за ваше время. < /P>
Ожидаемый вывод: < /p>
['Table', '1-2:', 'this is a sample text 2 and some hyphen - (abbreviation)']
['Table', '1:', 'this is a sample text 2 and some hyphen - (abbreviation)']
['Table', '1', 'this is a sample text 2 and some hyphen - (abbreviation)']
['Table', '1-2-1:', 'this is a sample text 2 and some hyphen - (abbreviation)']
['Figure', '1-2:', 'this is a sample text 2 and some hyphen - (abbreviation)']
['Figure', '1:', 'this is a sample text 2 and some hyphen - (abbreviation)']
['Figure', '1', 'this is a sample text 2 and some hyphen - (abbreviation)']
['Figure', '1-2-1:', 'this is a sample text 2 and some hyphen - (abbreviation)']
Подробнее здесь: https://stackoverflow.com/questions/736 ... characters