Plzeňští kybernetici vytvořili webovou databázi jazykové poradny

3 měsíce starý 6

Z ní mohou například lidé zjistit, jak se správně píše název nemoci covid-19, původ slova brusle nebo jakou jazykovou příručku mají kdy použít, řekla dnes mluvčí univerzity Šárka Stará. Webová aplikace, která poradí, aniž by lidé museli do poradny telefonovat, teď obsahuje přes 28 800 přepisů nahrávek.

Ústav, do jehož poradny každý den volá kolem 30 lidí, oslovil fakultu, která s využitím umělé inteligence otázky i odpovědi jazykovědců zpracovala a vytvořila dostupný a přehledně strukturovaný webový portál.

„Webová databáze dotazů byla vyvinuta proto, aby si v nich běžný uživatel mohl najít odpovědi na časté i méně obvyklé dotazy i na otázky týkající se úplně nových jazykových jevů. Jazykovědcům pak databáze pomáhá dotazový materiál systematicky zpracovávat, třídit a prohledávat pro badatelské účely,“ uvedl ředitel ÚJČ Martin Prošek. Databáze je dostupná na adresedotazy.ujc.cas.cz. Projekt financovalo ministerstvo kultury.

Zúčastnili se ho odborníci z kateder kybernetiky, informatiky a výpočetní techniky a výzkumného centra NTIS. Zpracovali zvuková data z hovorů za roky 2016 až 2019 a zajistili, aby proces fungoval automaticky.

„Telefonní hovor automaticky přepíše a zčásti ho i systematizuje,“ řekl vedoucí týmu Luděk Müller. Pokud pracovník poradny hovor přijme, spustí se nahrávání a na počítači se objeví aplikace určená pro poznámky, které později slouží pro podrobnou anotaci. Každý den po skončení provozu poradny systém nahrávky převede na text a systematizuje je. Pokročilou anotaci provedou lingvisté. Otázky a odpovědi lze třídit do podrobného stromového grafu. Dle člena týmu Zbyňka Zajíce nedokáže umělá inteligence provést podrobnou anotaci. „Zdaleka nestačí na to, aby získala o jazyku takové poznatky, aby mohla zastoupit jazykovědce,“ uvedl.

Na poradnu se obracejí učitelé, novináři, studenti, rodiče dětí a ostatní uživatelé jazyka, a to třeba proto, že nemají jazykové příručky, špatně se v nich orientují nebo v nich daný jev ještě nenajdou.

Zdroj