Tento přístup vytváří informace o lineage zkoumáním dat v databázi bez přístupu k vlastnímu kódu. Nástroje této kategorie (Tamr, Paxata, Trifacta) profilují data ve vašich tabulkách a čtou databázová metadata o tabulkách, sloupcích atd., a následně všechny uvedené informace použijí k vytvoření lineage na základě podobností dat. Na jedné straně bude tento přístup vždy fungovat nezávisle na technologii kódování, protože analyzuje výsledná data bez ohledu na to, která technologie data vygenerovala. Má však několik evidentních slabin:
- Zjišťování podobností dat v rozsáhlé databázi může zabrat spoustu času a výpočetní kapacity.
- Ve výsledných metadatech chybí mnoho podrobností, např. transformační logika.
Nelze zjistit lineage metadata o datech, která dosud nebyla zpracována. Předpokládejme například, že existuje účetní proces roční závěrky, který upravuje výnosy nebo stav zásob. Dokud tento proces nebude spuštěn 31. prosince, nebudeme o něm mít k dispozici žádná lineage metadata.