Евросоюз в сотрудничестве с IBM займется оцифровкой исторических документов

Проект под названием IMPACT (IMProving ACcess to Text) объединит более 30 организаций, среди которых - национальные библиотеки, исследовательские институты и университеты.
 
В ходе проекта планируется создать высококачественные цифровые копии важных исторических текстов. Такие документы будут размещаться в онлайне для свободного доступа.
 
Проект IMPACT использует  технологию crowd computing совместно с оптическим распознаванием символов (OCR). Crowd computing предусматривает использование вычислительных мощностей большого количества компьютеров, а также деятельности добровольцев. Система распознавания текста, используемая в IMPACT, умеет различать специальные термины и адаптирована к особенностям древних шрифтов. Еще одна особенность системы – использование специального адаптивного словаря, в котором неверно узнанные слова заменяются правильными прямо в процессе работы.
 
Авторы проекта считают, что эти технологии позволят уменьшить число ошибок и улучшить качество распознавания.
 
Не менее важна и скорость работы – с помощью технологий, используемых в IMPACT можно увеличить скорость распознавания почти в два раза.