В ИТМО создали инструмент для повышения качества поисковых систем и ИИ-ассистентов
Учёные университета ИТМО разработали библиотеку DocuMentor, которая определяет расположение элементов в PDF-файле с точностью до 98%.
Это позволяет делать документы машиночитаемыми и использовать их для создания эффективных систем поиска или чатов-ассистентов в крупных компаниях.
Преимущество библиотеки — в поэтапном алгоритме, извлекающем максимум информации о структуре документа при минимальном количестве ошибок. Она распознаёт и идентифицирует заголовки, таблицы, изображения, формулы, работает с форматами PDF, DOCX и Markdown. DocuMentor можно интегрировать в любые продукты для анализа структуры документов. Уже сейчас её использует Минстрой России для построения базы данных на основе нормативных документов, сообщает ТАСС.
Существующие инструменты либо не умеют определять структуру текста, либо плохо работают с объёмными документами. Кроме того, есть риск утечки данных при работе с открытыми сервисами. DocuMentor совершает ошибки при распознавании символов в 1,3% случаев, а при распознавании слов — в 2,5%, что в 6–10 раз меньше, чем у аналогов. Точность определения расположения элементов в PDF составляет около 98% для обычных текстов и 94% для сканов. Библиотека уже заинтересовала не только учёных, но и коммерческие компании, где с её помощью можно обрабатывать документы во внутреннем контуре.