Metodologie și controlul calității datelor
Local Data Insights nu publică simple liste brute. Datele trec printr-un pipeline de curățare, normalizare, geo-validare și verificare a semnalelor digitale înainte de a fi publicate ca dataset.
Această pagină explică principiile metodologiei LDI, fără a expune regulile interne detaliate, dicționarele complete sau logica tehnică proprietară.
Ce reflectă datele LDI
Datele LDI reflectă partea vizibilă digital a unei piețe locale, pe baza informațiilor disponibile public la data snapshotului.
Dataseturile LDI nu reprezintă registre oficiale și nu garantează acoperirea completă a tuturor organizațiilor dintr-o piață. Ele oferă o vedere structurată asupra businessurilor vizibile în surse digitale publice.
Proces ETL și pipeline de date: Bronze → Silver → Gold
LDI folosește un proces intern de tip ETL — colectare, transformare și publicare controlată a datelor — construit pe o arhitectură Bronze → Silver → Gold. Datele trec prin mai multe niveluri pentru a separa informațiile brute de datele curate, verificabile și pregătite pentru analiză.
Bronze
Nivelul Bronze conține date brute observate în surse digitale publice. În această etapă pot exista duplicate, categorii neclare, adrese incomplete sau înregistrări care necesită verificare suplimentară.
Silver
În nivelul Silver, datele sunt curățate, normalizate și filtrate. Sunt aplicate reguli de excludere, dicționare de categorii, verificări de adresă, status, localizare și semnale digitale.
Gold
Nivelul Gold conține datele pregătite pentru publicare: înregistrări care trec verificările de calitate, geo-validare și consistență a câmpurilor principale.
Curățare, categorii și eliminarea zgomotului
O parte importantă a metodologiei LDI este separarea businessurilor relevante de înregistrările care nu aparțin verticalei analizate sau nu pot fi folosite în mod fiabil.
- Folosim dicționare de categorii pentru a identifica businessurile relevante pentru fiecare verticală.
- Excludem categorii care nu aparțin pieței analizate.
- Eliminăm înregistrări fără adresă utilizabilă, acolo unde localizarea este necesară pentru analiză.
- Excludem businessurile marcate ca închise sau inactive în sursele observate.
- Normalizăm câmpurile principale pentru comparații între orașe, județe și verticale.
Geo-gate și validare spațială
Pentru ca datele să poată fi folosite în analiză locală și geoanaliză, LDI aplică verificări geografice înainte de publicare.
Coordonate și localizare
Folosim coordonate geografice atunci când sunt disponibile și verificabile în contextul datasetului.
Aria analizată
Punctele care ies în afara geografiei analizate sunt verificate și pot fi excluse dacă nu aparțin pieței locale definite.
Adrese utilizabile
Înregistrările fără localizare utilizabilă pot fi eliminate din dataseturile unde analiza spațială este importantă.
Verificarea website-urilor și semnalelor digitale
LDI tratează website-urile și canalele sociale ca semnale ale prezenței digitale observabile, nu doar ca simple câmpuri text.
- Verificăm accesibilitatea website-urilor și eliminăm linkurile inactive sau eronate, acolo unde sunt detectate.
- Separăm website-urile observabile de câmpurile lipsă sau neutilizabile.
- Identificăm pagini publice de social media asociate businessurilor, atunci când sunt vizibile.
- Pentru Facebook, Instagram sau LinkedIn, accentul este pe pagini publice asociate businessului, nu pe profiluri personale.
- Semnalele digitale sunt publicate ca indicatori observabili, nu ca evaluare a calității businessului.
Verificări înainte de publicare
Înainte ca un dataset să fie publicat, sunt aplicate mai multe verificări interne de calitate.
Q1 — consistența câmpurilor
Verificăm dacă principalele câmpuri necesare pentru analiză sunt prezente și coerente: nume, categorie, localizare, status și identificatori.
Q2 — calitatea localizării
Verificăm adresele, orașele, județele și coordonatele pentru a reduce erorile geografice și punctele în afara ariei analizate.
Q3 — semnale digitale
Verificăm disponibilitatea website-urilor, contactelor și semnalelor digitale observabile înainte de publicare.
Ce ajunge în datasetul publicat
Datasetul publicat nu include toate înregistrările observate inițial. În Gold ajung doar datele care trec filtrele de relevanță, localizare și consistență.
- Businessuri relevante pentru verticala analizată.
- Înregistrări cu localizare utilizabilă pentru piața definită.
- Businessuri care nu sunt marcate ca închise în sursele observate.
- Date de contact și canale digitale disponibile public, acolo unde acestea există.
- Câmpuri normalizate pentru lucru în CSV și XLSX.
Formate și utilizare
Dataseturile comerciale LDI sunt pregătite pentru utilizare în instrumente de analiză, spreadsheet-uri și fluxuri de lucru operaționale.
CSV
Format potrivit pentru import, analiză, automatizări și instrumente BI. Fișierele sunt salvate în codificare UTF-8.
XLSX
Format potrivit pentru lucru direct în Excel, inclusiv pentru câmpuri unde zerourile inițiale trebuie păstrate.
Analiză locală
Câmpurile de localizare și coordonatele, atunci când sunt disponibile, permit folosirea datelor pentru hărți și explorare spațială.
Ce nu este LDI
Pentru o interpretare corectă, este important să fie clar ce nu reprezintă aceste seturi de date.
Nu este registru oficial
Datele nu înlocuiesc registrele oficiale ale companiilor sau instituțiilor.
Nu este evaluare de calitate
Indicatorii digitali nu spun dacă un business este bun, slab sau recomandat.
Nu garantează acoperire completă
Seturile reflectă piața vizibilă în surse digitale publice, nu totalitatea absolută a pieței.
Limitări și responsabilitate
Datele LDI reflectă informațiile disponibile în surse digitale publice la data snapshotului. Ele nu reprezintă un registru oficial și nu garantează acoperirea completă a tuturor organizațiilor dintr-o piață. Sursele publice se pot modifica în timp, iar utilizarea datelor trebuie să respecte legislația aplicabilă.
Explorați datele
Consultați seturile publicate, vedeți mostrele sau solicitați un dataset personalizat pentru o verticală, un oraș sau un județ care vă interesează.