Metodologie și controlul calității datelor
Local Data Insights publică seturi de date care sunt procesate cu grijă și verificate. Datele trec printr-un proces de curățare, normalizare, geo-validare și verificare a semnalelor digitale pentru a asigura acuratețea și fiabilitatea acestora.
Această pagină oferă o descriere generală a metodologiei LDI, explicând procesul de verificare a datelor, fără a detalia regulile interne, dicționarele complete sau logica tehnică proprietară.
Ce reflectă datele LDI
Datele LDI oferă o viziune structurată asupra pieței locale, bazată pe informațiile publice disponibile la data snapshotului.
Dataseturile LDI sunt bazate pe surse digitale publice și nu reprezintă registre oficiale. Ele oferă o vedere completă asupra businessurilor vizibile online, dar nu acoperă toate organizațiile dintr-o piață.
Proces ETL și pipeline de date: Bronze → Silver → Gold
LDI folosește un proces intern de tip ETL (Extract, Transform, Load) — colectare, transformare și publicare controlată a datelor — construit pe o arhitectură Bronze → Silver → Gold. Fiecare nivel îmbunătățește calitatea datelor, asigurându-se că sunt corecte și utile pentru analiză.
Bronze
Nivelul Bronze conține date brute extrase din surse digitale publice. La acest nivel, datele pot include duplicate, categorii neclare, adrese incomplete sau înregistrări care necesită o verificare suplimentară pentru a fi corecte și coerente.
Silver
În nivelul Silver, datele sunt curățate, normalizate și verificate pentru acuratețe. Sunt aplicate reguli de excludere, verificări ale categoriilor, adrese și semnale digitale pentru a asigura coerența și relevanța datelor.
Gold
Nivelul Gold conține datele verificate, gata de publicare. Aceste seturi de date au trecut prin verificări stricte de calitate, inclusiv geo-validare și validarea coerenței câmpurilor principale, și sunt pregătite pentru utilizare în analiza pieței și luarea deciziilor.
Verificări înainte de publicare
Înainte de publicare, fiecare set de date trece prin trei niveluri esențiale de verificare: acuratețe tehnică, calitatea datelor și pregătirea pentru analiză.
Nivelul 1 — Verificare tehnică
Verificăm setul de date pentru probleme tehnice: câmpuri lipsă, erori de categorizare și probleme de formatare care pot afecta utilizarea datelor.
Nivelul 2 — Verificarea calității
În această etapă verificăm acuratețea, completitudinea și coerența datelor. Ne asigurăm că principalele câmpuri — nume, categorie, locație și date de contact — sunt fiabile și corecte.
Nivelul 3 — Pregătirea datelor pentru publicare
În etapa finală, organizăm și formatăm datele astfel încât setul să fie bine structurat și gata pentru publicare, ușor de folosit în rapoarte, analize și decizii.
Ce ajunge în datasetul publicat
Datasetul publicat include doar datele care trec printr-o serie de filtre pentru a asigura relevanța, acuratețea și fiabilitatea lor.
- Businessuri relevante pentru verticala analizată și piața definită.
- Localizare corectă și utilizabilă pentru zona de piață definită.
- Businessuri active (care nu sunt marcate ca închise în sursele observate).
- Informații de contact publice și canale digitale accesibile.
- Câmpuri normalizate pentru compatibilitate cu formatele CSV și XLSX.
Ce nu reprezintă seturile de date LDI
Pentru o interpretare corectă, este important să clarificăm ce nu includ aceste seturi de date.
Nu este registru oficial
Seturile de date nu înlocuiesc registrele oficiale ale companiilor sau instituțiilor.
Nu reprezintă o evaluare a calității
Indicatorii digitali nu oferă o evaluare a calității unui business, nu indică dacă acesta este bun, slab sau recomandat.
Nu garantează o acoperire completă
Seturile reflectă doar piața vizibilă în sursele digitale publice, nu întreaga piață.
Explorați datele
Descoperiți seturile de date publicate, vizualizați mostrele sau solicitați un set de date personalizat pentru verticala, orașul sau județul care vă interesează și care se potrivește nevoilor dumneavoastră.