“AINA”, el projecte d’intel·ligència artificial per garantir el català en l’era digital

El projecte del Govern generarà els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d’assistents de veu, traductors automàtics o agents conversacionals en català

El Departament de Polítiques Digitals, amb la col·laboració del BSC, ha creat el projecte AINA, una iniciativa que dota el català de recursos digitals i lingüístics perquè esdevingui una llengua competitiva al món digital. L’AINA permetrà que les empreses que creen aplicacions basades en intel·ligència artificial (IA), com ara assistents de veu, traductors automàtics, agents conversacionals, etc., puguin fer-ho fàcilment en català.

Amb un pressupost global de 13,5 milions d’euros per al període 2020-2024, l’AINA és un dels projectes prioritzats pel Departament de Polítiques Digitals per ser finançat amb els fons europeus NextGenerationEU. De moment, el projecte arrenca amb una aportació inicial de 250.000€ que el Departament de Polítiques Digitals ha assignat al BSC per ampliar els corpus de la llengua catalana i així obtenir models lingüístics que abastin les diferents variants i registres.

El BSC ja disposa d’un primer corpus textual del català, consistent en 1.770 milions de paraules, reunides en 95 milions de frases. Aquest corpus, el més gran que s’ha fet mai de la llengua catalana, s’ha obtingut a base de descarregar textos de diferents fonts digitals (planes web, arxius, etc), netejar-los i esborrar duplicitats.

La Generalitat de Catalunya ha proveït tota la informació de les seves pàgines web i del DOGC, cosa que ha suposat el 33% de tots els continguts descarregats, i han estat necessàries 2.000 hores de processadors del superordinador MareNostrum per revisar les dades obtingudes, desduplicar-les i eliminar tot allò que no fossin pròpiament oracions del català.

Això ha de permetre que el català faci un salt qualitatiu i quantitatiu en l’ecosistema digital. De fet, el món digital és avui una oportunitat i un repte per a la llengua catalana. Actualment, les tecnologies de veu i les aplicacions i interfícies de veu per a l’accés al món digital són estratègiques per al desenvolupament ple de la llengua en tots els sectors.

La IA i les Tecnologies del Llenguatge

Les Tecnologies del Llenguatge són aquelles que ja utilitzem en el nostre dia a dia quan corregim de forma automàtica un text al correu electrònic, utilitzem un cercador web a Internet, traduïm de forma automàtica una pàgina web, donem ordres de veu al telèfon mòbil, interactuem amb assistents virtuals o seguim les indicacions del navegador GPS, entre d’altres. I són les tecnologies que permetran dialogar amb ordinadors, aparells domèstics i fins i tot amb el nostre vehicle de manera natural.

Les noves tecnologies d’Intel·ligència Artificial i les Tecnologies del Llenguatge es basen en l’aplicació d’algorismes sobre grans conjunts de dades de qualitat, però els conjunts de dades sobre els quals s’entrenen els algorismes són específics per a cada llengua.

En aquest sentit, les grans multinacionals com Google, Apple i Microsoft utilitzen els recursos digitals de l’anglès creats per l’Agència de Projectes de Recerca Avançada del Departament de Defensa dels EUA (DARPA), que han estat la base lingüística de la IA a nivell mundial, ja que generar aquests mateixos recursos per part d’una empresa resultaria molt costós.

Font original SmartCatalonia

Ús de cookies

Aquest lloc web fa servir galetes per que tingueu la millor experiència d'usuari. Si continua navegant està donant el seu consentiment per a l'acceptació de les esmentades cookies i l'acceptació de la nostra política de cookies, apreti l'enllaç per a més informació. ACEPTAR

Aviso de cookies
IoT Catalan Alliance

Tipologia

Filtrar

Activitat

Filtrar

Sector

Sector Primari

Sector Secundari

Sector Terciari

Filtrar