Введение
В данном материале будет рассмотрен способ повышения доступности знаний с помощью искусственного интеллекта не только для обучающихся отраслевым специальностям, но и для работников отрасли.Проблема: низкая доступность корпоративной базы знаний
В компании ОБФ имеется корпоративная база данных. Она охватывает научную литературу, рабочие отчеты, внутренние регламенты и современные статьи, но в тоже время обладает существенным недостатком: пользоваться ей очень неудобно. В лучшем случае источники базы данных представлены в виде читаемого текста, то есть современный формат PDF. В худшем случае это те учебники до 2000-х, которые представляют из себя сканы, при этом чаще всего сканы далеко не в лучшем качестве, что делает функцию поиска по ключевым словам недоступной. Кроме того, при поиске информации по ключевым словам мы получаем избыточный объем информации, который требует дополнительного анализа и погружения в первоисточник. Таким образом, можно заключить, что знания есть, но комфортного и оперативного доступа для пользователя к ним нет.
Ограничения современных ИИ-моделей и проблема галлюцинаций
Какие инструменты нашего времени доступны для оптимизации получения релевантной информации из больших объемов данных? В первую очередь, это огромное количество моделей искусственного интеллекта. Они конкурируют друг с другом, кто быстрее, точнее, релевантнее выдаст ответ. При этом есть важный нюанс, о котором говорят все разработчики: данные из нейронной сети могут галлюцинировать в узких темах. Процент этих галлюцинаций, то есть выдумывание того, чего нет на самом деле, составляет около 5 %. При этом попробуйте еще ее поймать там, где она вас обманула. В тоже время большинство опрошенных пользователей склоняется к тому, что доля галлюцинаций на самом деле выше и доходит до 20−30 %. Кроме того, детальный анализ позволил выявить следующую проблему. Системы современного искусственного интеллекта, как правило, обучаются на западных данных, в меньшей степени на российских, и они не так хорошо владеют нашей узкоспециализированной отраслевой литературой.
Например, одной модели был задан вопрос, кто такой Непенин Н.Н. [1]. Она начала выдумывать, что это то ли литературный герой, то ли автор художественной литературы. Данный пример иллюстрирует, как проблема галлюцинации способна создать ряд сложностей и ограничений в нашей сфере. Это становится камнем преткновения, когда мы хотим внедрять результаты научного анализа.

Используемый в ОБФ подход: система RAG
Это так называемая система RAG. Кратко о том, как она работает: когда у нас есть вопрос пользователя, например, как увеличить показатель SCT, идет поиск по базе знаний. Причем эта база знаний уже переведена из форматов сканов в настоящий текст. База знаний сделана очень хитро, таким образом, что поиск ведется не по ключевым словам, а по смыслу, то есть ключевые слова могут отсутствовать, но схожесть контекста сохраняется. На этом этапе происходит извлечение релевантных фрагментов, отдельных выдержек из книг и учебников. На следующем этапе мы подключаем наш искусственный интеллект, который нам позволяет из всего того многообразия фрагментов выделить в структурированном виде то, что относится к вопросу. Кроме того, на этом этапе мы можем не просто попросить его ответить прямо на вопрос. Мы можем попросить искусственный интеллект уточнить вопрос пользователя и расширить его на ряд подвопросов, которые также могут оказаться ему полезны. В таком случае мы получаем ответ не только на то, что такое определение показателей SCT и какие факторы на него влияют, но и рекомендации по увеличению показателя, основанные на литературных данных. 
Состав и объем базы данных проекта
В настоящий момент наш источник данных содержит большинство учебников в области ЦБП. В него входят фундаментальные труды Непенина Н.Н., Фляте Д.М., Иванова С.Н., Комарова В.И., Смолина А.С. и еще более 70 книг. Также мы используем статьи в открытом доступе. Мы подгрузили туда статьи и авторитетные зарубежные источники, которые позволяют это сделать. Помимо этого там находится внутренняя документация, отчеты, регламенты, обзоры. Это действительно важно, чтобы конечный пользователь получал релевантную информацию не только из книг, но и из внутренней базы знаний компании. На текущий момент это уже более тысячи источников.
Пример работы системы
Таким образом, это не концепт, это действительно работает. Рассмотрим на примере. Задаем простой вопрос: «как улучшить формование бумажного полотна на сеточном столе?» Модель выдает развернутый ответ (на слайде представлена только часть ответа), который включает в себя анализ факторов, технические параметры, подлежащие контролю, методы и технологии улучшения процесса и причины ухудшения качества формования. При этом у нас есть источники, где мы можем проверить или расширить наши знания относительно того, что нам дал искусственный интеллект. Главное, что в своем ответе наш искусственный интеллект опирается исключительно на фрагменты текста без нежелательных галлюцинаций. 
Риски, ограничения и технологические сложности
Как и в любой сложной системе, здесь есть свои ограничения и узкие места. В частности они связаны с производительностью системы. Обработка сканированных документов — непростая задача. Нужно не только получить текст, но также исправить ошибки, что особенно трудно в условиях отсутствия электронного словаря для бумажников, который можно было бы интегрировать в систему. Кроме того, у нас есть довольно специфические технические термины, которые модель может не знать и поэтому их искажать.Также мы столкнулись с ограничениями, связанными с методикой — это отсутствие четких метрик качества ответа. Насколько эффективно модель решила ответить на наш запрос, возможно понять, когда мы либо заранее готовим датасет, либо если мы привлекаем экспертов для оценки полноты ответа. Следующий момент — это устаревшие знания. Многие положения из тех, что были в учебниках до 2000-х, сейчас потеряли актуальность.
Сопротивление персонала — это следующий организационный риск. Раньше были авторитетные эксперты, к которым все обращались, а сейчас возникает система, которая может дать ответ, и он будет точный. С обратной стороны создаются условия, когда весь опыт компания может концентрировать не в людях, а в системе. Тем самым мы сохраняем опыт сотрудников внутри компании, который не прерывается даже выходом людей на пенсию.
Всегда существует возможность утечки конфиденциальной информации, но здесь есть два пути. Первый — настраивать роли доступа. Чем выше должность сотрудника, тем к большему количеству информации получает доступ модель, взаимодействуя с таким сотрудником. Второй — это разворачивание модели внутри производственной площадки, когда данные не попадают во внешний контур.

Трансформация вопросов-ответов в учебные программы
В рамках работы над данным проектом у нас родилась интересная идея: что, если преобразовать формат вопросов-ответов в учебную программу? Ведь, казалось бы, учебная программа — это набор вопросов, которые мы предъявляем претенденту, на которые он должен ответить, и с этой точки зрения инструмент отлично справляется. Мы можем использовать данное решение в том числе для того, чтобы с его помощью сформировать перечень вопросов, на которые должен отвечать, например, накатчик бумагоделательной машины, и на основании этих вопросов сформировать программу обучения уже с контекстом и с опорой на литературные источники. Таким образом, когда мы подходим к этому процессу, у нас время подготовки методики сокращается с недель до дней и часов. Все зависит от сложности выбранной программы.
Зачем это нужно? Основные преимущества
- Первый основополагающий фактор – это скорость доступа к знаниям. Раньше поиск ответа занимал от нескольких часов до дней: человек должен был погрузиться в историю вопроса, выявить то, что ему нужно, и попытаться это осмыслить и структурировать самостоятельно. Сейчас за него это делает искусственный интеллект. - Обучение на фактах, а не на слухах. Здесь мы ориентируемся и опираемся только на литературу, которая обладает фактами.
- Поддержка решений в условиях аварийных ситуаций. Очень быстрый поиск возможных вариантов решения проблемы, которые уже существовали и описаны во множестве источников.
- Сохранение знаний при уходе ветеранов.
- Все система развертывается внутри компании, обеспечивая минимум рисков утечек и нарушения конфиденциальности информации.