Я разрабатываю новый токенизатор в C ++, потому что Transformers.berttokenizer - это слишком медленное, а Blingfire Microsoft имеет низкую точность. < /p>
После связывания его с Python и измерения его производительности, я преуспел в создании превосходного токенизатора, который в четыре раза быстрее, а не в чем -то, что нельзя что -то более быстрее. Когда я изучил его, код, составленный с G ++, а не Clang ++ или MSVC, всегда был быстрее, чем другие компиляторы на Mac (ARM64), Windows и Ubuntu. < /p>
Это необычный случай, поэтому я не смог найти причину. Код можно найти по приведенной ниже ссылке. 2019.
Подробнее здесь: https://stackoverflow.com/questions/794 ... -is-the-fa
Мобильная версия