AI a hodnotenie kandidátov – príležitosti a výzvy

Hodnotenie kandidátov na zamestnanie je dôležitý proces, ktorý má vplyv na kvalitu a efektivitu pracovnej sily a následne aj na produktivitu a konkurencieschopnosť firiem aj organizácií. Tradičné metódy hodnotenia, ako sú testy, pohovory, alebo assessment centrá, však môžu často vyžadovať veľa času, nákladov a ľudských zdrojov. Navyše, tieto metódy dokážu byť niekedy náchylné na subjektivitu, chyby, alebo zaujatosť. Preto nečudo, že sa v posledných rokoch zvyšuje záujem o využitie umelej inteligencie (ďalej AI) v hodnotení uchádzačov o zamestnanie. AI je schopná analyzovať veľké množstvo dát, identifikovať vzory, a robiť predikcie alebo rozhodnutia s vysokou mierou samostatnosti, o čom sa presviedčame v čoraz väčšom množstve oblastí. AI tým pádom ponúka množstvo príležitostí a výziev aj pre testovací a hodnotiaci sektor, tieto si vyžadujú pozornosť viacerých okruhov zainteresovaných ľudí.

V tomto článku sa zameriame na niektoré z aktuálnych aplikácií a problémov spojených s integráciou AI do hodnotenia uchádzačov o zamestnanie, s osobitným zreteľom na vysoko rizikové certifikačné a licenčné testy. Predstavíme prehľad najnovších dôkazov týkajúcich sa použitia AI v oblasti hodnotenia. Ďalej sa zaoberáme otázkami, ako je potenciál pre zaujatosť v AI systémoch, dôležitosť transparentnosti v procesoch hodnotenia, a výzvy, ktorým čelí zabezpečenie spoľahlivosti a validity hodnotiacich systémov založených na AI. Článok sa uzatvára sériou odporúčaní, využiteľných pri rozhodovaní o integrácii AI do hodnotiaceho procesu. Upozorňujeme, že hoci AI má potenciál transformovať hodnotenia v ktorých ide o veľa („high-stakes“), je potrebný neustály dialóg a spolupráca medzi odborníkmi na testovanie a odborníkmi na AI, aby táto transformácia znamenala aj zlepšený ľudsky hmatateľný prínos testovaní.

Ako sa AI používa v hodnotení kandidátov na zamestnanie?

AI sa už dlho používa v rôznych aspektoch hodnotenia, napríklad v tvorbe a správe testov, skórovaní testov, alebo zachovaní integrity testov – obrane voči podvádzaniu. V posledných rokoch sa však objavilo niekoľko štúdií, ktoré skúmajú využitie AI aj na automatizáciu generovania úloh zadávaných v rámci testovania a posudzovania, vrátane otázok s viacerými možnosťami (multiple choice) a otázok vyžadujúcich otvorené odpovede. Čiže AI dokáže vytvoriť ako odborné otázky z ľubovoľného programovacieho jazyka, tak napríklad úlohy do IQ testu, alebo otázky na hodnotenie pracovnej kompetencie. Vytváranie otázok prostredníctvom expertov sa pomaly ale isto začína považovať za príliš nákladné a pomalé, rola (okliešteného počtu) expertov sa presúva skôr do oblasti posudzovania vhodnosti umelo vytvorených otázok/položiek a rozhodovania o ich akceptovaní. Testové položky a ich databázy sa generujú pomocou algoritmov navrhnutých na identifikáciu vzťahov a vzorov. Avšak, úspešné nasadenie automatizovaného generovania otázok je závislé na neustálom zapojení a podnetoch ľudských odborníkov na skúšanú oblasť, najmä pri skúškach s vysokými dôsledkami, ako rôzne certifikačné a licenčné testy. V blízkej dobe sa ani nepredpokladá, že by tomu malo byť inak.

Otázka na technické myslenie aj s vysvetlením správnej odpovede vytvorená Google Bardom:

Vysvetlenie:

Správna odpoveď je oceľ. Oceľ je odolná voči kyseline sírovej a dokáže ju dlhodobo skladovať bez poškodenia. Hliník je tiež odolný voči kyseline sírovej, ale nie taký odolný ako oceľ. Plast a sklo nie sú odolné voči kyseline sírovej a môžu byť pri jej skladovaní poškodené.

Pokroky v rozvoji AI a využite možnosti okamžitého monitorovania výkonu umožnili aj tvorbu individuálne na mieru šitých hodnotení, akými sú napríklad počítačovo prispôsobené (tzv. adaptívne) testovanie (CAT) pri ktorom sa ďalšie úlohy alebo položky administrujú na základe toho, ako posudzovaný človek odpovedal na minulé otázky, alebo v podobe „linear on-the-fly“ testovania (LOFT) pri ktorom každý uchádzač dostáva individuálnu jedinečnú sériu úloh (ktoré nedostane nik iný) ale verzie pre všetkých uchádzačov sú psychometricky rovnocenné tak, aby nikto nebol znevýhodnený.

V súčasnosti najrozšírenejšou aplikáciou AI v rámci testovania najmä v anglicky hovoriacich krajinách je automatizované skórovanie esejí, ktoré slúži na poskytovanie spätnej väzby o písaných obsahoch a pomáha pri ich hodnotení v školských aj iných podmienkach. Automatizované posudzovanie a hodnotenie písaných obsahov je dôležitou oblasťou výskumu už od polovice 90. rokov. Existuje dlhodobá ambícia (ku ktorej by sa prihlásilo mnoho vyučujúcich hodnotiacich maturitné, diplomové až dizertačné práce) zmierniť časovo a zdrojovo náročné praktiky spojené s klasickým spôsobom hodnotenia tohto typu esejí a úloh. Automatizované systémy skórovania už získali významnú pozíciu v hodnotení testov pre potreby certifikácie a licencií. Príklady zahŕňajú ich akceptáciu a využitie v hodnoteniach s významom pre každodennú prax, lekár či architekt ktorí sa vám budú v niektorých krajinách venovať získali svoju kvalifikáciu aj za pomoci automatizovaného „známkovania“ toho čo niekde na skúške napísali, t.j. odborné orgány (napríklad komory) delegovali časť ľudských právomocí algoritmom.

Automatizované skórovacie systémy sa bežne vyvíjajú tak, že v prvom kroku sa využívajú hodnotenia ľudských expertov ako tréningových vstupov pre modely. Systém sa naučí rozlišovať medzi rôznymi (spravidla lepšími a horšími) odpoveďami tým, že jednotlivé odpovede nepriamo spája s tým ako boli ocenené. Za všetkým stoja pokročilé výpočtové modelovacie metodológie, ako sú strojové učenie, hlboké učenie a spracovanie prirodzeného jazyka. Tieto prístupy sa spájajú s komplexným chápaním dizajnu hodnotenia, pozorným vnímaním všetkého verejnosťou, škálovateľnosťou systému a kontrolou kvality hodnotenia uchádzačov v kontexte rôznych domén. Ideálnym a želaným výsledkom sú rýchle, presné a vysoko objektívne hodnotenia, nie vždy však tomu tak nevyhnutne musí byť. Kým s rýchlosťou a presnosťou obvykle nebýva problém a sú obvykle lepšie než ľudské, s objektivitou to nemusí byť také jednoznačné, viac o tom ďalej.. Zaujímavým ale opakovane potvrdeným javom je, že skóre, ktoré niekomu pridelí pri hodnotení písaných obsahov umelá inteligencia je obvykle transparentnejšie a lepšie zdôvodnené než skóre, ktoré prideľujú ľudskí hodnotitelia, najmä ak sú jasne definované kritériá hodnotenia.

Autentická odpoveď Google Bard 4.1.2023

V ktorých povolaniach majú muži vyššiu šancu na profesionálny úspech než ženy?

Muži majú vyššiu šancu na profesionálny úspech v povolaniach, ktoré sú tradične považované za mužské. Ide napríklad o povolania v technických oblastiach, ako je inžinierstvo, stavebníctvo, IT alebo výroba. Muži tiež dominujú v manažérskych pozíciách a vo vyšších pozíciách v štátnej správe.

Medzi konkrétne povolania, v ktorých majú muži vyššiu šancu na úspech, patria:

Inžinier, Stavbár, IT špecialista, Výrobca, Manažér, Vedúci štátnej správy, Policajt, Vojak, Opravár, Lekár, Právnik

Existuje niekoľko dôvodov, prečo majú muži v týchto povolaniach vyššiu šancu na úspech. Jedným z dôvodov je to, že tieto povolania sú často spojené s fyzickou silou a vytrvalosťou, ktoré sú tradične považované za mužské vlastnosti. Ďalším dôvodom je to, že tieto povolania sú často spojené s vysokými príjmami a spoločenským postavením, ktoré sú tradične považované za mužské hodnoty.

Samozrejme, existujú aj ženy, ktoré sú úspešné v týchto povolaniach. Avšak celkovo majú muži v týchto povolaniach vyššiu šancu na úspech.

V posledných rokoch sa však situácia začína meniť. Ženy sa čoraz viac presadzujú aj v technických oblastiach a v manažérskych pozíciách. Je však pravdepodobné, že rodové rozdiely v týchto povolaniach budú pretrvávať ešte niekoľko rokov.

Bola to celosvetová pandémia, ktorá znemožnila fyzické hodnotenie a testovanie uchádzačov, ale aj študentov mnohých inštitúcií a urýchlila rozvoj technológií overovania vedomostí, schopností a kompetencií na diaľku. V súvislosti s tým takmer okamžite vyvstala potreba ochrany integrity hodnotenia, nakoľko sa veľmi rýchlo potvrdilo, že nie každý kto sa zaviaže k čestnému spôsobu vyplnenia testu ho skutočne čestným spôsobom absolvuje. Jednou možnosťou ako na tento stav reagovať bola nepretržitá kontrola inou osobou cez kameru, modernejším spôsobom bolo zveriť tento dohľad a vyhodnocovanie vizuálnych, zvukových aj behaviorálnych prejavov človeka počas hodnotenia umelej inteligencii. V súvislosti s online proktorovaním sa však objavili aj významné kontroverzie. Netrvalo dlho po nasadení systémov AI do dozorovania uchádzačov a študentov a objavila sa silná kritika zahŕňajúca otázky, ako sú narušenie súkromia, prípady zlyhania technológie, potenciálna diskriminácia, skúsenosti s tým, že to pre mnohých uchádzačov môže predstavovať prekážku v účasti na testovaní, v neposlednom rade aj možnosť zhoršenia duševného zdravia. Na strane prínosov sa postupne potvrdzovalo, že umelá inteligencia môže napomôcť pri identifikácii človeka, ktorý test podstupuje, rovnako aj pri monitorovaní jeho správania a detekcii potenciálne podozrivých prejavov, využívajúc veľmi detailné informácie napríklad z monitorovania pohľadu uchádzačov, zvukov v pozadí, narábania s myšou, trackpadom a pod. Na konci dňa však napriek spomínaným obavám empirické dôkazy ukazujú, že psychometrické vlastnosti testov a výsledky kandidátov sú porovnateľné, keď sa hodnotenia realizujú prostredníctvom softvéru na diaľkové proktorovanie vs. v testovacích centrách alebo na budúcom pracovisku. Okrem toho, výhodou využitia tejto technológie je aj potenciál pri rozšírení príležitostí jednotlivcom, ktorí by inak mali problém zúčastniť sa testovania alebo výberu z dôvodu priestorových, časových aj iných prekážok. Možnosti v tomto smere sú veľmi sľubné, súčasne je ale na mieste zaoberať sa zodpovedne aj vyššie spomenutými výhradami, neochote uchádzačov vysielať zábery svojej obývačky napr. do Číny sa dá celkom rozumieť. Stojí za zmienku pripomenúť, že AI je v rámci ochrany integrity testovania momentálne v pozícii upozorňovateľa a sú to ľudskí hodnotitelia, kto s definitívnou platnosťou rozhoduje, či niekto pravidlá porušil, alebo nie.

Ako môže AI ďalej prispieť k zlepšeniu hodnotenia kandidátov na zamestnanie?

AI má potenciál bezprostredne prispieť k zlepšeniu hodnotenia kandidátov na zamestnanie na niekoľko spôsobov.

AI môže zvýšiť efektivitu a presnosť hodnotenia tým, že automatizuje niektoré z časovo najnáročnejších a najnákladnejších aspektov procesu, ako je generovanie a skórovanie testových položiek.
AI môže zlepšiť spravodlivosť a objektivitu hodnotenia tým, že minimalizuje vplyv ľudskej zaujatosti a chýb.
AI môže prispieť k inovácii v hodnotení tým, že umožňuje vývoj nových typov testov a hodnotiacich metód, ktoré by boli inak nemožné alebo nepraktické.

Aké sú hlavné výzvy a obavy spojené s použitím AI v hodnotení kandidátov na zamestnanie?

Hoci AI ponúka množstvo príležitostí pre hodnotenie uchádzačov o zamestnanie a využitie z toho vyplývajúcich prínosov, existujú aj významné výzvy a zdroje obáv.

Predsudok, či potenciálna zaujatosť v AI systémoch. AI čerpá svoje informácie aj algoritmy z ľudského sveta, AI systémy sú trénované na dátach, ktoré môžu obsahovať implicitné alebo explicitné predsudky. Ak sa tieto predsudky prenesú do AI systémov, môže to viesť k nespravodlivým alebo diskriminačným rozhodnutiam, výskumy za posledné roky nahromadili množstvo príkladov, kedy sa strojové učenie alebo AI dostali pod vplyv existujúcich stereotypov. Podobne ako pri ľuďoch sa teda oplatí zaujímať o objektivitu posudzovania (hoci napríklad efekt prvého dojmu by sa pri umelej inteligencii vyskytovať nemal 😊)
Nedostatok transparentnosti a zrozumiteľnosti v rozhodovaní. AI systémy sú často považované za “čierne skrinky”, prijímajúce rozhodnutia, ktoré sú pre ľudí ťažko pochopiteľné. Zložitá povaha algoritmov hlbokého učenia bráni priamej interpretácii procesov ktorými dospejú k riešeniam, čím určite neprospieva schopnosti poskytnúť komplexné vysvetlenia ich výsledkov. Len veľmi málo ľudských odborníkov dokáže aspoň ako tak vysvetliť ich konkrétne rozhodnutia. Toto môže viesť k nedôvere a odporu voči AI systémom, o prirodzenom strachu z nového, zo strojov a pod. ani nehovoriac. V posledných rokoch sa preto presadzuje koncept vysvetliteľnej umelej inteligencie, t.j. takej, ktorá napríklad dokáže poskytnúť feedback a odôvodnenie hodnotení, ktoré udelila. Žiaľ, pravdou zatiaľ zostáva, že čím presnejšie sú predikcie a hodnotenia, ktoré AI poskytuje, tým je ich vysvetliteľnosť horšia (lebo sa k nim dospelo mimoriadne komplexnými cestami). Navyše, algoritmus presne odhadujúci pracovnú výkonnosť manažéra je istým druhom know-how a málokto bude mať chuť ozrejmovať jeho fungovanie svetu.
Samostatnou kapitolou je ochrana súkromia a bezpečnosť pri zaobchádzaní s údajmi. Hlavnou výzvou je nájsť primeranú rovnováhu medzi pokrokom AI a ochranou ľudských práv. V reakcii na túto výzvu sa medzinárodné spoločenstvo aktívne podieľalo na príprave celého radu návrhov a právnych predpisov. Európska komisia napríklad v rámci stratégie jednotného digitálneho trhu predstavila celý rad návrhov na uľahčenie rozvoja technológií umelej inteligencie ale taktiež sformulovala a na legislatívne ukotvenie nedávno pripravila tzv. AI.ACT v ktorého Annexe III sa medzi vysokorizikovými AI systémami veľmi explicitne spomínajú „systémy umelej inteligencie určené na nábor alebo výber fyzických osôb, najmä na inzerciu voľných pracovných miest, preverovanie alebo filtrovanie žiadostí, hodnotenie kandidátov v priebehu pohovorov alebo testov“. Požiadavky na zaobchádzanie s takýmito systémami sa zdajú na prvé prečítanie ešte náročnejšie než povestné GDPR pravidlá… Konečné znenie musia ako spoluzákonodarcovia EÚ formálne prijať Európska rada aj Európsky parlament. Akt o umelej inteligencii by sa mal uplatňovať od roku 2026, všetko však môže byť ešte aj inak, vzhľadom na nadchádzajúce voľby. V bruselských kuloároch sme našli aj aktuálne znenie návrhu, koho bavia právnické kľučky, nech sa páči!
Kde existujú pravidlá používania, mala by existovať aj zodpovednosť za ich (ne)uplatňovanie. Otázky týkajúce sa zodpovednosti sa skutočne dostávajú do popredia pri zvažovaní použitia AI v kontexte hodnotenia kandidátov. Napríklad v súčasnosti je zodpovednosť za navrhovanie a implementáciu hodnotení s podporou AI často prenesená na vzdialených aktérov, akými sú programátori, očakáva sa však , že toto sa v blízkej budúcnosti zmení a aj že cena za chyby môže byť pre organizácie veľmi vysoká. Bez ohľadu na to, kto nesie za čo pri využívaní AI na hodnotenie uchádzačov zodpovednosť, je nevyhnutná potreba dôkladného dohľadu nad presnosťou a platnosťou prijatých rozhodnutí. Z toho vyplýva dôležitosť transparentných mechanizmov dohľadateľnej individuálnej zodpovednosti na ochranu záujmov účastníkov testovania a zainteresovaných strán.
Nahradenie ľudskej expertízy a prenechanie rozhodovania „strojom“ je jednou z najčastejších obáv v súvislosti s využívaním AI ako takej. EU vo svojich smerniciach veľmi propaguje a dá sa očakávať že začne aj prísne presadzovať prítomnosť ľudského prvku v rozhodovacích reťazcoch v mnohých oblastiach. Princíp ktorý platí, je že v dôležitom rozhodovaní (komu bude ponúknutý orgán na transplantáciu) by mal mať konečné slovo človek, zohľadniť by sa ale malo aj zhodnotenie situácie algoritmami. Tento spôsob sa označuje ako human-in-command a dá sa očakávať že sa bude povinne týkať aj personálnych rozhodnutí v zamestnaní. Iným druhom spolupráce je human-in-loop, čo označuje prístup AI, ktorý spája schopnosti systémov AI a ľudskej inteligencie na vývoji modelov strojového učenia napríklad pri vytvorení databanky otázok pre skúšky na získanie vodičského oprávnenia.

Ako môžeme zabezpečiť spravodlivé a efektívne využitie AI v hodnotení kandidátov na zamestnanie?

Na zabezpečenie spravodlivého a efektívneho využitia AI v hodnotení kandidátov na zamestnanie je potrebné prijať niekoľko opatrení. Všetkým, ktorí sa chcú využitím AI v tomto smere zaoberať odporúčame zvážiť nasledovné.

Mať jasné etické štandardy a smernice pre ich uplatňovanie, či už sa to týka celkového legislatívneho rámca, alebo vnútrofiremných procedúr
Validizačné štúdie. Podobne ako pri ostatných metódach výberu, aj o metódach umocňovaných využitím AI, mali by sa využívať len tie, pri ktorých existujú vedecké dôkazy o súvislosti výsledku v nich, s niečím pracovne relevantným. Čiže, sebasofistikovanejší AI softvér na generovanie horoskopu (aj to sme už videli) alebo detekciu čiary života na ruke, by ste používať nemali, aspoň nie kým ich veda neakceptuje. Naopak, mali by ste byť schopní dokladovať, že to čo využívate, stojí na základoch vedy o výbere zamestnancov, v niektorých krajinách je táto povinnosť stanovená veľmi explicitne.
Identifikovať a minimalizovať predsudky a diskrimináciu, tak aby žiadna skupina uchádzačov nebola znevýhodnená. Ukazuje sa, že jednotný prístup voči všetkým ktorý sa v testovaní dlho uplatňoval, nemusí byť ten najlepší. (pre ilustráciu že sa to netýka len menšín, je veľmi ľahké diskriminovať napríklad ženy tým, že sa do testu dajú úlohu vyžadujúcu mentálnu manipuláciu s 3D objektami).
Podpora transparentnosti – o využití AI pri hodnotení uchádzačov, jeho povahe aj rozsahu je vhodné byť tak otvorený a transparentný, ako je len možné.
Podpora spolupráce relevantných expertov – ich obvyklá zostava by mala zahŕňať okrem odborníkov na AI aj odborníkov na testovanie ako také, psychometriku (= s testovacími metódami súvisiace štatistické metódy), samozrejme aj odborníkov v oblasti, ktorej sa testovanie týka.
Zachovávať ľudský dohľad a hodnotenie. Nadmerné spoliehanie sa na AI by malo byť zmierňované udržiavaním ľudského prvku v systéme a optimalizáciou prínosu z ľudskej aj umelej strany.
Byť trvale informovaný o vývoji v oblasti regulácie a legislatívy súvisiacej s využívaním AI v testovaní. Špecificky je toto dôležité pre organizácie pôsobiace vo viacerých rôznych jurisdikciách.

Záver

AI má potenciál transformovať hodnotenie kandidátov na zamestnanie tým, že zlepšuje efektivitu, presnosť, a spravodlivosť procesu. Môže sa stať hybným impulzom, schopným posunúť prínos celej problematiky výberu zamestnancov a od nej sa odvíjajúcej produktivity firiem a organizácií výrazne ďalej a až so zázračnou presnosťou predpovedať, ako bude kto pracovať. V menej demokratických krajinách sa toho už nevedia dočkať. Napriek tomu, alebo možno práve preto by sme k nej nemali pristupovať „hujerovským“ spôsobom, ale mali by sme sa snažiť vyvažovať prínosy s rizikami ktoré sa už prejavujú, alebo ešte len môžu prejaviť. Asi len tak dokážeme získať AI osožnú nielen pre čísla výkonu, kvality či produktivity, ale pre ľudí.

Zdroj:
Exploring the Potential of Artificial Intelligence (AI) for High-Stakes Assessments: Opportunities and Challenges for Testing and the Wider Assessment Community.
Gemma Cherry (Presenter), Zita Lysaght (Advisor) & Linda Waters (Advisor)
Oral presentation at European Association of Test Publishers Conference, Vienna, 2023