19.07.2024 в 11:50

Создается большая языковая модель на казахском языке

Для развития исследований в области ИИ создается большая языковая модель на казахском языке (KazLLM) силами Назарбаев Университета и АО «Национальные информационные технологии». Данная модель будет основана на 100 млрд токенов. Для обеспечения высокого качества модели критически важно собрать максимальное количество данных на казахском языке. Для этих целей будет проводиться национальный сбор данных -  масштабная кампания по сбору данных на платформе Hugging Face. Об этом сообщил председатель Комитета искусственного интеллекта и развития инноваций Гиззат Байтурсынов на пресс-конференции СЦК.

Собрано 30 млрд токенов из открытых источников, порядка 90 терабайт данных из государственных и квазигосударственных органов, а также государственных архивов и СМИ.  

«Планируется представить первую версию KazLLM в декабре текущего года. К 2029 году мы планируем довести количество патентов в области ИИ до показателя не менее 20 в год», - сказал спикер. 

Для координации и эффективной реализации политики государства по поддержке развития искусственного интеллекта создан Комитет искусственного интеллекта и развития инноваций при МЦРИАП. Мировой опыт показывает, что для успешного развития индустрии ИИ необходима поддержка со стороны государства путем создания экосистемы, включающей доступ к данным, технологической инфраструктуры и дружелюбной регуляторики. 

«Основными задачами Комитета является построение инфраструктуры с вычислительными мощностями, создание казахской языковой модели KazLLM, создание условий для безопасного, ответственного и этичного использования ИИ, применение ИИ в отраслях, а также развития человеческого капитала», - отметил глава профильного Комитета. 

Акселерационные программы создадут мультипликативный эффект через рост предпринимательской активности на рынке информационных технологий. Для максимально широкого охвата бизнес-сообщества необходимо создать экосистему ИИ, предусматривающую доступность вычислительных мощностей, базы данных, дата-сетов, льготы на облачные вычисления и другое. 

В рамках развития экосистемы сформирована Национальная сборная ИИ из казахстанских специалистов, работающих в международных компаниях.