ANTLR4 TokenStreamRewriter.getText() теряет пробелы в пользовательском правиле синтаксического анализатора DOCTYPE

ANTLR4 TokenStreamRewriter.getText() теряет пробелы в пользовательском правиле синтаксического анализатора DOCTYPE ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

ANTLR4 TokenStreamRewriter.getText() теряет пробелы в пользовательском правиле синтаксического анализатора DOCTYPE

Цитата

Сообщение Anonymous » 29 мар 2026, 08:21

Я использую ANTLR4 для анализа XML-файлов, а затем вывожу проанализированный контент с помощью TokenStreamRewriter.getText().

Для обычных тегов XML (например, и ) выходные данные корректны: пробелы и разрывы строк сохраняются.
Однако для добавленного мной специального правила синтаксического анализатора DOCTYPE выходные данные теряет все пробелы, даже если исходный XML содержит пробелы и разрывы строк.
Ожидаемое поведение:

Я хочу, чтобы выходные данные DOCTYPE сохраняли исходное форматирование, включая пробелы и разрывы строк, например:

Код: Выделить всё

]>

Фактическое поведение:

Вывод, создаваемый TokenStreamRewriter.getText(), выглядит следующим образом:

Код: Выделить всё

]>

Все пробелы удаляются и все объединяется.
Используются правила синтаксического анализатора:

Код: Выделить всё

dtd :
DOCTYPE_OPEN Name LBRACK misc* entityDecl* RBRACK CLOSE misc* entityRef?
;

entityDecl
: ENTITY_OPEN Name STRING misc* CLOSE
;

entityRef
: '' EntityRef ''
;

Описание проблемы:

Я подозреваю, что эта проблема связана с уровнем лексера. TokenStreamRewriter.getText() просто объединяет token.text, поэтому, если лексер пропускает пробельные токены, они не отображаются в выводе.
Я хочу знать:

Как я могу изменить правила лексера/парсера ANTLR4, чтобы в выводе DOCTYPE сохранялись пробелы?
Существует ли рекомендуемый подход, гарантирующий, что TokenStreamRewriter.getText() выводит текст, который почти идентичен исходному XML?

Что я пробовал:

Добавление пробелов в посетителе вручную работает, но это громоздко.
Использование rewriter.getText(ctx.start, ctx.stop) не помогает, если пропускаются токены пробелов.

1774761660

Anonymous

Я использую ANTLR4 для анализа XML-файлов, а затем вывожу проанализированный контент с помощью TokenStreamRewriter.getText().

Для обычных тегов XML (например,  и ) выходные данные корректны: пробелы и разрывы строк сохраняются.
Однако для добавленного мной специального правила синтаксического анализатора DOCTYPE выходные данные [b]теряет все пробелы[/b], даже если исходный XML содержит пробелы и разрывы строк.
[b]Ожидаемое поведение:[/b]

Я хочу, чтобы выходные данные DOCTYPE сохраняли исходное форматирование, включая пробелы и разрывы строк, например:
[code]
]>
[/code]
[b]Фактическое поведение:[/b]

Вывод, создаваемый TokenStreamRewriter.getText(), выглядит следующим образом:
[code]]>
[/code]
Все пробелы удаляются и все объединяется.
Используются правила синтаксического анализатора:
[code]dtd :
DOCTYPE_OPEN Name LBRACK misc* entityDecl* RBRACK CLOSE misc* entityRef?
;

entityDecl
: ENTITY_OPEN Name STRING misc* CLOSE
;

entityRef
: '' EntityRef ''
;
[/code]
[b]Описание проблемы:[/b]

Я подозреваю, что эта проблема связана с [b]уровнем лексера[/b]. TokenStreamRewriter.getText() просто объединяет token.text, поэтому, если лексер пропускает пробельные токены, они не отображаются в выводе.
Я хочу знать:
[list]
[*]Как я могу изменить правила лексера/парсера ANTLR4, чтобы в выводе DOCTYPE сохранялись пробелы?

[*]Существует ли рекомендуемый подход, гарантирующий, что TokenStreamRewriter.getText() выводит текст, который почти идентичен исходному XML?

[/list]
[b]Что я пробовал:[/b]
[list]
[*]Добавление пробелов в посетителе вручную работает, но это громоздко.

[*]Использование rewriter.getText(ctx.start, ctx.stop) не помогает, если пропускаются токены пробелов.

[/list]