Tento článek popisuje, jak v tabulkách (resp. dotazech) Power BI vyčistit drobné chyby.

Chyb může být hodně typů a je možné je čistit různě. My se zaměříme na takovýto typ chyby – kdy jedna položka je psaná v různých variantách.

Např. tady je položka “Chocolate” psaná i nesprávně jako “chocolade” a “choclate”.

Jak na to?

Nejprve potřebujeme tabulku, kde jsou vypsané správné názvy položek:

Pak jdeme na Sloučit dotazy. Jako klíč vybereme v obou tabulkách názvy položek, a co je důležité, zaškrtneme “Sloučit s použitím přibližné shody“.

Pak normálně rozklikneme dvojitou šipku.

A to je vše – vedle špatných názvů máme i nové správné. Asi je zřejmé, že toto přiřazení není neomylné – ale rozhodně je to lepší než nic…

1 Komentář

  1. Škarohlíd je tu 🙂 Zkusil jsem teď opět Fuzzy Lookup Add-In for Excel (poslední aktualizace asi 2014). Jeho kvality jsou asi srovnatelné s uvedeným, pravděpodobně na něm i Microsoft v Power Query stavěl. Praxe je taková, že spíš nebudeme mít referenční seznam. Narazíme na dva seznamy, v každém z nich budou stejné, nebo odlišné chyby od korektních názvů (stejní zadavatelé a další chyby). Pořád platí základní poučka z databází – měj jedinečný klíč/id nebo máš smůlu. Těžko říct, jestli nás někdy posune AI s obrovskou databází za zády, s tou naší češtinou horko těžko.

  2. Jj, fuzzy lookup bude nejspíš fungovat na stejných algoritmech. Musím ale říct že s ním mám docela špatné zkušenosti – často mi házel různé chyby nebo nedělal, co má dělat.

  3. A čo tak zoznam si vytvoriť (zo zdroja) PQ výpočtom ? …počtu výskytov a fuzzy sám na seba na vyjednotenie a následné vyfiltrovanie zoznamu tj. vyhodiť málo početné prvky, ku ktorým našiel obdoby prvkov s viacpočetným výskytom. Až potom párovať tento zoznam na zdroj.

  4. To by určitě šlo, ale asi bude dost situací, kdy největší četnost nemusí znamenat správnost (i když někdy to tak je).

  5. Opravujem. Mám vyskúšané fuzzy DOPLNOK v MSE sa nerovná s PBI.

Komentáře není možné přidávat