Иандек је научио неуронске мреже да дешифрују архивске записе сложеним правописом
мисцеланеа / / April 03, 2023
Историјски рукописи, које је човеку тешко рашчланити, вештачка интелигенција скоро тренутно претвара у штампани текст.
Јандекс је покренуо нову услугу под називом Претрага архиве, која користи неуронске мреже за дешифровање архивских записа сложеним пререволуционарним правописом.
Услуга омогућава приступ више од 2,5 милиона страница историјских докумената са транскриптима текста. Његов алгоритам, изграђен на основу оптичког система за препознавање карактера, узима у обзир особености рукописа, препознаје слова која су изгубила релевантност, разуме посебну структуру архивских докумената.
Специјалисти компаније обучили су неуронску мрежу на низу података од стотина хиљада руком писаних редова из стварних текстова 18.-19. века и десетинама милиона генерисаних примера.
Рукописи које је неприпремљеној особи тешко рашчланити, Иандек технологија се готово тренутно претвара у штампани текст. Захваљујући томе, у бази података услуге можете брзо пронаћи документе са навођењем презимена, локалитета или било које друге речи.
„Претрага по архивима” повећаће ефикасност рада историчара, социолога, демографа, генеалога и помоћи ће онима који траже податке о својој породици.
Први фонд представљен у сервису био је Главни архив Москве - на његовим материјалима су програмери обучавали неуронску мрежу. База података садржи и документе из архива Оренбуршке и Новгородске области. Временом ће се повећати број складишта и доступних скенираних датотека.
Можете тражити материјале из 18. - почетка 20. века, који су најпопуларнији код корисника. Реч је о парохијским матичним књигама, исповедним листовима и ревизионим приповеткама са резултатима пописа становништва. Документе можете пронаћи у каталогу или преко траке за претрагу. Постоје филтери по годинама, архивама, фондовима и инвентарима.
Поред скенирања сваке странице, приказано је декодирање ред по ред које су направиле неуронске мреже. Ако пређете мишем преко жељеног фрагмента, он ће одмах бити истакнут на дигиталној копији.