Amazon запускает облачный сервис для распознавания документов

написаноadminGWP 03.06.2019

Вaм нужнo быстрo и aвтoмaтичeски извлeчь инфoрмaцию с мнoжeствa дoкумeнтoв? A oни, к тoму жe, xрaнятся в видe скaнoв аль фoтoгрaфий? Вaм пoвeзлo, eсли ваша милость являeтeсь клиeнтoм Amazon Web Services (AWS). Amazon oбъявилa oб oткрытии дoступa к Textract, oблaчнoгo и пoлнoстью упрaвляeмoгo сeрвисa, кoтoрый испoльзуeт мaшиннoe подготовка для анализа таблиц, текстовых форм и аж страниц текста в популярных электронных форматах. То время) как что он хорошенького понемножку доступен только в некоторых регионах AWS, в частности в восточной части США (Огайо и Северная Девственная), на западе США (в штате Орегон) и в Нашел (Ирландия), а в следующем году Textract станется доступен для всех желающих.
Textract — нулевый сервис от AWS, кой позволит клиентам Amazon результативно распознавать и систематизировать коллекции документов.

Как бы утверждает Amazon, Textract с огромной форой более эффективен, нежели обычные оптические системы распознавания символов. Изо файлов, хранящихся в корзине Amazon S3, дьявол может извлечь начинка полей и таблиц с учётом контекста, в котором представлена буква информация, например, концепция автоматически выделяет имена и постоялый двор социального страхования в налоговых формах разве итоговые суммы в соответствии с сфотографированным квитанциям. (как) будто отмечает Amazon в пресс-папье-релизе, Textract поддерживает такие форматы изображений, в качестве кого сканы, PDF-файлы и фотографии, а да эффективно работает с контекстом в документах специфичных про финансовых услуг, страхования и здравоохранения.

Textract сохраняет результаты в формате JSON, снабженного аннотациями с номерами страниц, разделами, метками форм и типами данных, и около желании интегрируется с сервисами баз данных и аналитики, такими (языко Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena, и продуктами про машинного обучения, такими сиречь Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate и Amazon SageMaker, к постобработки. В качестве альтернативы извлеченные талантливость могут быть переданы как у себя дома в сторонние облачные сервисы чтобы целей обеспечения соответствия в бухгалтерском учёте и аудите или — или для поддержки интеллектуального поиска в архивах документов. (как) будто утверждает Amazon, Textract может «точно» умаслит миллионы страниц разных документов следовать «всего несколько часов».

Гибель клиентов AWS уже используют Textract, в том числе и Globe and Mail, национальную метеорологическую службу Великобритании, PricewaterhouseCoopers, некоммерческую организацию управляемой медицинской помощи Healthfirst и компании по части автоматизации роботизированных процессов UiPath, Ripcord и Blue Prism. Candor, стартап, целью которого является вложить прозрачность в ипотечную потомство, использует Textract, чтоб извлекать данные изо таких документов, чисто банковские выписки, платежные квитанции и непохожие налоговые документы, с тем чтоб ускорить процесс одобрения кредита для того своих клиентов.

«Мощь Amazon Textract заключается в волюм, что он ровно извлекает текстовые и структурированные цифирь практически из любого документа кроме необходимости предварительного машинного обучения», — рассказывает вице-глава Amazon Machine Learning Свами Сивасубраманян (Swami Sivasubramanian). «В надбавка к интеграции с другими сервисами AWS, большое общество, развивающееся вокруг Amazon Textract, позволяет нашим клиентам прикладывать реальную пользу через своих коллекций файлов, заниматься более эффективно, исправлять соответствие требованиям безопасности, автоматизировать передача данных и ускорять занятие бизнес-решений».

Вниз вы можете покоситься презентацию Textract получи конференции re:Invent 2018 бери английском языке.