Одним из многих основных моментов недавнего пленарного заседания ISO/IEC по искусственному интеллекту была дискуссия о синтетических данных. Пленарное заседание SC 42 одобрило работу над новым техническим отчетом о синтетических данных в контексте систем искусственного интеллекта.
Синтетические данные относятся к искусственно созданным данным, которые имитируют реальные данные и могут быть получены из реальных данных или сгенерированы исключительно на основе алгоритмов или математических моделей. В некоторых случаях они предназначены для сохранения характеристик и структуры исходных данных при одновременной защите конфиденциальности. Это особенно ценно при работе с конфиденциальными типами данных, такими как медицинские записи или финансовая информация, где правила конфиденциальности и этические соображения ограничивают обмен данными.
Как правило, этот процесс называется анонимизацией, так что любые ссылки на конфиденциальную информацию удаляются. Примеры этого включают размывание (изменение некоторых значений небольшими случайными величинами), чтобы предотвратить идентификацию конкретных лиц.
Синтетические данные также можно использовать для дополнения существующих наборов данных путем создания дополнительных выборок, которые охватывают более широкий спектр сценариев, вариаций или выбросов, или просто для предоставления достаточно большого набора данных для подготовки модели машинного обучения. Это помогает повысить надежность и возможности обобщения моделей искусственного интеллекта.
Важно отметить, что такие данные позволяют исследователям и разработчикам создавать контролируемые и повторяемые эксперименты. Манипулируя параметрами и характеристиками процесса генерации синтетических данных, они могут исследовать различные сценарии и оценивать производительность и поведение моделей искусственного интеллекта в различных условиях.
Методы генерации синтетических данных включают такие методы, как генеративные состязательные сети (GAN), которые включают обучение модели для генерации новых выборок данных, которые очень напоминают распределение исходных данных. В настоящее время наибольший интерес вызывают методы, использующие генеративные предварительно обученные преобразователи (GPTS) и большие языковые модели (LLM), такие как ChatGPT и Google Bard.
Большие модели преобразования текста в изображение могут принимать короткие подсказки на естественном языке в качестве входных данных и использовать эти входные данные для генерации текста и изображений, которые трудно отличить от созданных человеком. Другие подходы включают алгоритмы на основе правил, имитационные модели или методы расширения данных, которые модифицируют существующие выборки данных для создания синтетических вариаций.
Хотя синтетические данные обладают многочисленными преимуществами, важно подтвердить их качество и обеспечить их соответствие реальным данным, которые они призваны представлять. Успех использования синтетических данных зависит от точности и реалистичности, достигнутых при описании статистических закономерностей и взаимосвязей, присутствующих в исходных данных.
LLM представляют ряд проблем в этом отношении, поскольку их ответы не являются полностью детерминированными (одно и то же приглашение может генерировать разные ответы), что затрудняет проверку. Кроме того, эти модели, поскольку они, по сути, предсказывают следующее слово в последовательности, часто “галлюцинируют” и фабрикуют полностью ложную информацию.
Кроме того, необходимо учитывать этические и юридические последствия использования синтетических данных, чтобы избежать потенциальных искажений. Уже существуют проблемы с генеративными моделями, связанные с данными, используемыми для обучения этих моделей. Вопросы включают в себя, нарушает ли это права интеллектуальной собственности и права, связанные с генерируемыми данными, а также частые примеры непреднамеренного появления запатентованных обучающих данных в генерируемых результатах.
Проект SC 42, посвященный синтетическим данным, вероятно, будет направлен на выявление наилучших практик для генерации, оценки и использования синтетических данных в системах искусственного интеллекта. Это может способствовать ответственному и эффективному использованию синтетических данных при одновременном решении проблем конфиденциальности и повышении доступности и разнообразия данных для исследований и разработок в области искусственного интеллекта.