Záplava dokladů? Zaměstnejte vášnivého čtenáře!

Přidal:

Je celá řada činností, které dříve či později vykonáváme bez zájmu, bez nadšení, bez velké pozornosti. Rutina. Stereotyp. Slova, ze kterých mnohé z nás zamrazí. Ano, zvládneme takové činnosti, ale stojí nás příliš mnoho času, příliš mnoho úsilí, a ještě nás často někdo upozorní na chybu. Třeba přijaté faktury.

Nemusíme být Amazon či Alza, abychom s nechutí sledovali nenápadně narůstající hromádku přijatých faktur, které čekají, až si je někdo přečte. Nejen přečte, ale navíc přečtené údaje někomu či někam předá. Co s tím?

Přijmeme vášnivého čtenáře. Preciznost a nízké nároky podmínkou. Zn. Spěchá!

Uchazeči

Z lidí se na inzerát nepřihlásil nikdo. Z ostatních zástupců se přihlásil jeden cizinec, ABBYY FlexiCapture, původem Američan. A pak tu máme jednoho tuzemského uchazeče, jmenuje se DOCU-X OCR. Narodil se v Praze a vyslala jej firma SOCOS IT, protože se domnívá, že splňuje naše požadavky. Uvidíme.

Oba uchazeči o sobě tvrdí, že jsou čtenáři rychlí, přesní, že jsou ochotní se učit novým věcem, že jsou ochotní k práci přesčas, přesněji řečeno, že čas pro ně není překážkou. Místo čtení oba uchazeči mluví o „rozpoznávání textu“ a „vytěžování“. Uvidíme.

ABBYY je veliká firma se zákazníky po celém světě, dodavatel špičkových řešení v oblasti rozpoznávání a vytěžování informací z elektronických dokumentů. Pracuje s umělou inteligencí, zkrátka špička v oboru.

SOCOS IT je mladá, dynamická, česká firma. Mohla by snad konkurovat zkušenostem giganta ABBYY? Aha, mohla. Ona totiž neplýtvá energií na vývoj existující a zkušenostmi bohaté technologie, ale pro své potřeby využívá mnohých dovedností vůdce v oboru. A vytváří kolem nich prostředí, které umožňuje velkým, ale i středním a malým firmám sáhnout po tomto „vášnivém čtenáři“. Tak to bychom rozhodně rádi zkusili!

Úvodní pohovor

„Přihlásil jste se na náš inzerát. Základní fakta o Vás víme. Než se pustíme do praktické ukázky, jenom se zeptám na pár otázek, už konkrétnějších.“

„Do naší firmy přichází různé faktury, objednávky, ale i různé formuláře a další. Které dokumenty jste ochoten číst? Jaké formáty umíte přečíst?“
 „Nemám žádné omezení, zvládnu libovolné typy, které si budete přát. Stačí, aby dokumenty byly alespoň trochu strukturované. A formáty umím všechny potřebné: PDF dokumenty a obrázky ve formátech JPG a TIFF. Takové jsou typické pro výstup ze skeneru.“

„Jasně. Velmi nám záleží na přesnosti a správnosti. Dokážete přečtené údaje zkontrolovat a ověřit podle našich pravidel?“
„Ano, samozřejmě. Každý údaj, který z dokumentu přečtu, mohu zkontrolovat podle Vámi nastavených pravidel. Když najdu nějakou nesrovnalost, označím údaj jako chybný a popíšu důvod. V té chvíli zastavím i automatické předání dokumentu dál a předám ho lidské obsluze k rozhodnutí, co s chybou.“

„Výborně. A teď velmi důležitá věc. Zmiňoval jste, že jste ochoten se učit. Potřebujeme někoho, kdo dokáže využít získané zkušenosti a při příštím výskytu obdobné situace ji vyřešit samostatně. je tohle ve Vašich silách?“
 „Ano, přesně takto je učení myšleno. Čím více dokumentů přečtu, tím více mám informací o tom, kde a jaké údaje dokumenty obsahují. Jsem pak schopný čím dál lépe sám rozpoznat, o jaký dokument se jedná a zorientovat se v jeho údajích, abych nezatěžoval lidskou obsluhu.“

„Skvělé. Kolik zvládnete obsloužit pracovišť, které Vám budou dodávat dokumenty? A kolik lidí s Vámi může být v kontaktu?“
 „Nemám v tomto směru žádná omezení. Přečtu dokumenty z libovolného počtu míst a mohu spolupracovat s libovolným počtem lidských pracovníků na libovolném počtu pracovišť.“

„Pak zbývá poslední otázka. Máme ve firmě řadu systémů, Vámi přečtené informace mohou být postupně využívány celou řadou z nich. Jste schopný se s různorodými systémy od mnoha dodavatelů domluvit?“
 „Jsem principiálně připraven na to, abych získané informace ukládal v podobě, jaká je potřebná pro kontakt s konkrétním prostředím. Umím zapisovat přímo do databázových tabulek, umím vytvářet technickými lidmi a systémy oblíbené XML dokumenty a další. Myslím, že dokážu najít společnou řeč s jakýmkoliv systémem.“

Výzva – praktická ukázka

„Z úvodního pohovoru máme dojem, že byste mohl být tím vášnivým čtenářem, kterého hledáme. Teď Vás poprosíme o praktickou ukázku Vaší práce.
Připravili jsme pro Vás jednoduchý model – část našeho firemního prostředí a našich procesů. Ještě jsme ho zjednodušili na jednoho dodavatele. Na ukázku nám stačí dva doklady – dvě přijaté faktury ve formátu PDF.

Do složky 01-KeZpracovani budeme ukládat doklady, které chceme zpracovat – přečíst a získané údaje uložit. Můžete pro to využít složku nazvanou 02-Vystup.
Cílem Vaší ukázky je předat originální soubor PDF a z něj vytěžené údaje do našeho systému pro správu dokumentů. Používáme M-Files. Máme připravenou jednoduchou základní strukturu, do které byste měl data předat.

Protože nás zajímá i rychlost Vaší práce, jakmile položíme doklady do domluvené složky, budeme sledovat i čas. Můžeme tedy vyzkoušet těchto pár kroků? Výborně, a poprosíme o stručný komentář o činnosti, kterou budete dělat. Prosím, můžeme začít.“

Praktická ukázka očima DOCU-X OCR 

KROK 0 – Příprava před praktickou ukázkou

„Dostal jsem k dispozici dvě faktury od nového dodavatele, firmy WEDOS. Před prvním zpracováním automatickým se s nimi musím seznámit, určit údaje, které mě zajímají a kde je najdu. V mém slovníku si založím nový profil a v něm šablonu právě pro tohoto dodavatele. Odhaduji, že tato práce zabere zhruba 5 až 10 minut.

Informace pro zpracování – profil

  • odkud se budou dokumenty načítat?
  • kam se budou ukládat vytěžená data a soubory?
  • bude každý dokument kontrolovat člověk?
  • jaké budou podoby výstupu?

Založím novou šablonu, která v sobě ponese informace o fakturách od dodavatele WEDOS. Zahrnuje i atributy, tedy údaje, které budu na fakturách číst a dále je předávat. Identifikaci atributů musí znát systém, kterému předám výsledky své práce. V naší ukázce to bude M-Files, poprosím Vás tedy, abyste podle těchto informací připravili M-Files k importu.

Každému atributy prozradím, kde se na faktuře nachází údaj, který je třeba získat. Pro správně definovanou šablonu jsou všechny atributy zeleně označeny na znamení úplnosti a souhlasu.

V tuto chvíli jsem připravený na samotné automatické vytěžování.

KROK 1 – K VYTĚŽENÍ

Jakmile uložíte do mnou trvale sledované vstupní složky 01-KeZpracovani dokumenty, začnu je zpracovávat. Můžeme začít. Měření času nechám na vás.

Během pár sekund jsem zjistil, že se objevily dokumenty. Převzal jsem je k přečtení – zařadil do fronty ke zpracování. Vstupní složka je prázdná.

 

 

KROK 2 – VYTĚŽOVÁNÍ

Protože fronta čekatelů na přečtení byla před naším testem prázdná, ihned se pouštím do zpracování našich vzorových dokladů. Podle nastavení v profilu bych měl automaticky přečíst všechny požadované údaje, lidskou obsluhu bych využil pouze v případě, že najdu nějakou nesrovnalost či chybu. Přečtení dokumentů a získání údajů vám přesně vypíši v přehledu.

Získané údaje pak mám podle nastavení v profilu uložit do výstupní složky 02-Vystup společně s původními PDF doklady. To mi zabere pár sekund navíc.

V tuto chvíli tedy končí má práce, kterou plně řídím a ovládám – čtení dokumentů a jejich vytěžování – získávání údajů k dalšímu automatickému zpracování.

Protože si přejete, aby výsledky mé práce sloužily Vašemu systému pro správu dokumentů M-Files, prosím Vás o přístup a kontrolu, zda vše dospělo do požadovaného cíle.

Tím končí moje krátká praktická ukázka. Děkuji za pozornost.“

KROK 3 – Import do M-Files

„Děkujeme Vám za Vaši ukázku. Podle identifikací atributů jsme připravili automatický import údajů ze složky 02-Vystup do M-Files. Měly by vznikat přijaté faktury s vyplněnými základními údaji.

Připravili jsme si pohled na přijaté faktury. V něm okamžitě poznáme, zda došlo k importu a zda jsou údaje v pořádku.

Vidíme dvě faktury, jsou to PDF dokumenty, podle názvu souhlasí s našimi zkušebními přijatými fakturami. Datum a čas vytvoření také odpovídají.

Zkontrolujeme například první fakturu. V detailním náhledu na metadata vidíme, že údaje odpovídají předané faktuře. Všechny údaje se shodují.

Ještě zkontrolujeme v náhledu, že se skutečně jedná o původní fakturu:

Výsledek Vaší praktické ukázky tedy považujeme za úspěšný.”

Dotazy před rozhodnutím

„Vážený uchazeči, přesvědčil jste nás svou praktickou ukázkou, že byste mohl být pro naši firmu tím pomocníkem, kterého hledáme, vášnivým čtenářem.

Zbývá ještě zodpovědět dvě důležité otázky. První: máte nějaké mimořádné nároky na prostředí, ve kterém pracujete, vyhrazený server, mimořádně vysoký výkon serveru a podobně?“
 „Myslím, že v každé firmě využívající nějaké informační technologie najdu dostatek prostředků pro svou práci, nebo dojde jen k nějakému rozšíření existujících kapacit.“

„Výborně. A druhá otázka: kdy můžete nastoupit?“
 „Cesta od prvního seznámení s novým zaměstnavatelem k plnému nasazení obvykle zabere řádově dny. Záleží na množství dokladů, množství pracovišť a lidských pracovníků.“

Závěr: Přijat

„Vážený uchazeči, dovolte shrnout náš dnešní pohovor.

Mimo dostupnosti Vašich služeb z finančního hlediska nás zajímaly především výsledky praktické ukázky – rychlost, preciznost práce. Seznamování se s novým typem faktury v přípravné fázi Vám zabralo necelých 6 minut. Samotná rutinní práce, pro kterou bychom Vás rádi přijali, pak na dvou ukázkových dokumentech trvala celkem 64 sekund od uložení originálních dokumentů do vstupní složky až k Vašemu uložení výstupních dokumentů – původního dokladu a vytěžených dat. Závěrečné zpracování v M-Files už samozřejmě nesouvisí s rychlostí Vaší práce, ale kontrolou správného importu do M-Files jsme ověřili její bezchybnost.

Vážený DOCU-X OCR, na úplný závěr tedy mohu konstatovat, že jste splnil všechna naše očekávání a můžeme Vám tímto nabídnout pracovní místo v naší firmě – pozici vášnivého čtenáře. Věříme, že zvládnete velké množství rutinní práce, která je pro nás lidi velkou zátěží a zdrojem velkého množství chyb.“

Oldřich Hlaváček on BloggerOldřich Hlaváček on EmailOldřich Hlaváček on Twitter
Oldřich Hlaváček
Oldřich Hlaváček je konzultantem společnosti ERPIO s.r.o. v oblasti aplikace Erpio - mobilní přístup k datům firemních systémů, který ERPIO vyvíjí, a správy dokumentů a firemního obsahu. Ve volném čase píše pohádky pro děti, spolupracuje s neziskovými organizacemi v oblasti péče o předškolní děti, je ředitelem malé rodinné neziskové společnosti (loutkové divadlo, autorská pásma programů pro děti a další). Více na OldrichHlavacek.cz
0