Rengeteg adat hever a szemünk előtt, csak tudni kell hasznosítani. Kiderült, hogy a Google Utcaképben (Street View) látható autókból sok elég mindenre lehet következtetni.
Egy amerikai kutatók vezette csoport a Google által 200 amerikai városban készített publikus utcaképekből kivett egy 50 millió fotóból álló mintát, és ráeresztett egy tárgyfelismerő algoritmust. Ezt arra fejlesztették ki, hogy meghatározza, lát-e valamilyen járművet a képeken, és ha igen, akkor azonosítsa be a típust (például pick-up, szedán vagy teherautó), a márkát, a gyártási évet és a modell pontos verzióját. Utóbbit a laikusoknak sokszor nehéz megállapítani, mert néha csak nagyon apró különbségek láthatóak, mondjuk a hűtőrács kissé eltér az egyes évjáratokban vagy felszereltségi szintekben. A szakemberek viszont ismerik ezeket a különbségeket, és néhány mintán keresztül az algoritmusnak is sikerült megtanítani.
A szoftver átlagosan 0,2 másodperc alatt végzett egy képpel, ennyi idő alatt határozta meg, hogy a képen lévő autó a 2657 verzió közül melyikbe tartozik. Ezzel lényegében lefedték az 1990 óta Amerikában kapható összes modellt. Egy szakembernek fotónként átlagosan 10 másodpercre lett volna szüksége ugyanerre a munkára, vagyis körülbelül 15 évig nézegethette volna a képeket ahhoz, hogy az eredményt megkapja. A gép viszont két hét alatt végzett, és a szúrópróbaszerű ellenőrzés szerint 82-95 százalékos pontossággal dolgozott.
Az 50 millió képen összesen 22 millió járművet találtak, ami 8 százaléka a teljes amerikai állománynak. Az autókat földrajzi elrendezés szerint nagyobb csoportokba sorolták, és hozzátettek más adatokat is, mint például a kocsi átlagos fogyasztása, vagy ára. Ezek után vettek egy kisebb részt az így kialakított adatbázisból, és összevetették demográfiai, szociológiai és választási adatokkal. Ezek között kerestek összefüggéseket, és kiderült, hogy a mintában számos trend figyelhető meg. Ilyen például, hogy az ázsiai származású negyedekben a Hondák és a Toyoták a legjellemzőbbek, a feketék a Chryslereket, a Buickokat és az Oldsmobile-okat kedvelik, a fehérek lakta negyedekben pedig sok a pick up, vagy a Volkswagen.
A tipikusan demokratákra szavazó negyedekben a szedánok, a republikánusokban pedig a pick upok a legelterjedtebbek.
Ezután a minta eredményeit összevetették a teljes, 22 millió autós országos adatbázissal, és visszaellenőrizték, hogy így mennyire pontos eredményeket kaptak. Vagyis azt vizsgálták meg ezzel a módszerrel, hogy ha önmagában az autós képekből indultak volna ki, akkor mennyire pontos képet kaptak volna a szociológiai adatokra országos szinten.
Az egyezés meglehetősen nagy a származás vagy bőrszín meghatározásában, vagyis csupán az utcán látható autókból ez nagy biztonsággal kikövetkeztethető. Megfelelően nagy pontosságot hozott az iskolai végzettség és a politikai beállítottság meghatározása is, ezekre is jól lehet az autókból következtetni.
A szociológiai és demográfiai adatok felmérése az Egyesült Államokban évi 250 millió dollárba kerül, és a kisebb településeken csak olyan ritkák és nehézkesek az adatgyűjtések, hogy azok csak 2,5 év csúszással jelennek meg a feldolgozásokban. A hasonló algoritmusok ezt a munkát sokkal gyorsabban és olcsóbban el tudják végezni, a projekt elsődleges célja az volt, hogy ezt bizonyítsa.
Tech
Fontos