Низкая производительность/скорость регулярного выражения с предварительным просмотромJAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Низкая производительность/скорость регулярного выражения с предварительным просмотром

Сообщение Anonymous »

Я наблюдал чрезвычайно медленное выполнение выражений с несколькими просмотрами.

Я предполагаю, что это связано с базовыми структурами данных, но это кажется довольно экстремальным, и мне интересно, делаю ли я что-то неправильно или есть ли известные обходные пути.

Проблема заключается в том, присутствует ли набор слов в строке в любом порядке. Например, мы хотим узнать, находятся ли где-нибудь в строке два термина «term1» и «term2». Я делаю это с помощью выражения:

(?=.*\bterm1\b)(?=.*\bterm2\b)


Но я наблюдаю, что это на порядок медленнее, чем простая проверка

\bterm1\b


и только тогда

\bterm2\b


Похоже, это означает, что мне следует использовать массив шаблонов вместо одного шаблона с предварительным просмотром... верно? это кажется неправильным...

Вот пример тестового кода и полученное время:

public static void speedLookAhead() {
Matcher m, m1, m2;
boolean find;
int its = 1000000;

// create long non-matching string
char[] str = new char[2000];
for (int i = 0; i < str.length; i++) {
str = 'x';
}
String test = str.toString();

// First method: use one expression with lookaheads
m = Pattern.compile("(?=.*\\bterm1\\b)(?=.*\\bterm2\\b)").matcher(test);
long time = System.currentTimeMillis();
;
for (int i = 0; i < its; i++) {
m.reset(test);
find = m.find();
}
time = System.currentTimeMillis() - time;
System.out.println(time);

// Second method: use two expressions and AND the results
m1 = Pattern.compile("\\bterm1\\b").matcher(test);
m2 = Pattern.compile("\\bterm2\\b").matcher(test);
time = System.currentTimeMillis();
;
for (int i = 0; i < its; i++) {
m1.reset(test);
m2.reset(test);
find = m1.find() && m2.find();
}
time = System.currentTimeMillis() - time;
System.out.println(time);
}


Это выводит на моем компьютере:

1754
150


Подробнее здесь: https://stackoverflow.com/questions/983 ... -lookahead
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»