Журнал "Вычислительные технологии"

Информация о статье

2024 г., Том 29, № 6, с.125-146

Шигаров А.О.

Распознавание таблиц неаннотированных PDF-документов на основе использования PDF-специфичных свойств

Сегодня PDF — это один из наиболее популярных форматов распространения печатно-ориентированных документов в электронной среде. PDF-документы часто являются неаннотированными: страницы представлены только низкоуровневыми инструкциями рендеринга текста и графики, они не сопровождаются аннотацией своих структурных компонентов (заголовков, абзацев, таблиц и пр.). Автоматическое восстановление такой аннотации может обеспечить доступность структурных компонентов. Последнее возможно при решении ряда задач, одной из которых является распознавание таблиц неаннотированных PDF- документов: обнаружение границ их строк, столбцов и ячеек.

В работе предложен метод распознавания таблиц неаннотированных PDF- документов. В отличие от имеющихся аналогов впервые означенная задача решается на базе использования PDF-специфичных свойств: порядка вывода текста, позиций перемещения пера и пр. Это позволило адаптировать к поставленной задаче некоторые известные подходы и методы, изначально ориентированные на растровые изображения и неформатированный текст, включая “кластеризацию слов”, обнаружение строк rows first, сегментацию пробельного пространства и анализ компонентов связности. Представленные результаты оценки производительности показывают эффективность решений, реализующих данный метод.

[полный текст]
Ключевые слова: распознавание таблиц, извлечение таблиц, неструктурированные данные, документные таблицы, анализ компоновки страницы документа

doi: 10.25743/ICT.2024.29.6.008

Библиографическая ссылка:
Шигаров А.О. Распознавание таблиц неаннотированных PDF-документов на основе использования PDF-специфичных свойств // Вычислительные технологии. 2024. Т. 29. № 6. С. 125-146