Sari la conținut

Cariera mea în baze de date

Până în prezent am creat peste 100 baze de date despre imobiliare, geografie, mașini, produse electronice, etc. Sute de firme folosesc baze de date „Made by Teoalida” iar asta îmi oferă o responsabilitate uriașă de a oferi actualizări constante. Puteți să îmi dați idei de noi baze de date, dar să nu vă așteptați să dau curs tuturor solicitărilor. Prioritizez proiectele în funcție de numărul de clienți interesați.

Scriu această pagină pentru cei curioși bazele de date au ajuns „meseria” mea principală:

Pasiunea mea pentru scris, colecționat și analizat date a început în perioada când eram la grădiniță, înainte să avem calculator. Tata a cumpărat calculator în 1995 și spre sfârșitul lui 1996 mi-a dat voie să îl folosesc și eu (aveam 7 ani), m-a învățat să lucrez în Microsoft Word, dar eu mi-am băgat nasul și prin Excel, PowerPoint, etc.

Din 2003 folosesc Excel mai mult ca Word, pentru a creea tabele cu date adunate de exemplu din revistele auto, dar de abia în 2012 (aveam 23 ani) am descoperit că pot face o afacere din vânzarea de date, sunt firme dispuse să dea sute de dolari pe o bază de date completă, precisă și actualizată frecvent.

Veniturile realizate din baze de date în 2015 au depășit de 10 ori veniturile din arhitectură, unde în 90% din cazuri nu reușeam să conving clienții să plătească serviciile.

Primele lucrări

Activitatea mea de data analysis a început pe la 7 ani, părinții aveau o bibliotecă lungă de 5 metri și nu prea modificau poziția cărților, eu am făcut pe caiet un tabel în care am scris numărul de cărți pe fiecare raft, iar pe la 8-9 ani am făcut un tabel Word în care am scris creioanele mele colorate și lungimea fiecăruia.

Primele documente scrise pe calculator erau ficționale, Bilo îm Baie și Puii mei, modificându-le continuu fără vreun final, plus aventuri umoristice sub formă de dialoguri, unele aventuri fiind inspirate din evenimente REALE petrecute la școală, cu copii obraznici.

Cum scrisul meu de mână era doar cu litere de tipar majuscule, am făcut așa și pe calculator. Tata mi-a impus reguli cum să scrii CORECT un document: textul principal de 12pt sau 14pt aliniat la ambele margini, titluri de 16-20pt bold și subliniate, aliniate la centru. Eu am adăugat un sistem de numerotate al titlurilor (capitolelor) iar cum Bilo îm Baie avea capitole pe 5 nivele, unele titluri erau gen „1.2.3.4.5. titlu”, făcând documentul foarte inestetic.

Tata mi-a zis că lucrările neterminate nu au nici o valoare, m-a încurajat să termin lucrările ca el să le facă la imprimantă (nu am înțeles niciodată ce valoare avea printrarea, atâta timp cât nu publicam nici o carte), deși eu voiam să public cărți, părinții nu m-au ajutat, ba chiar s-au opus oricărei activitate care mi-ar fi adus popularitate.

Din acest motiv, în 1998 (la 9 ani) am început să scriu documente care le puteam „termina” și printa: Geografia României, lista orașelor din România, lista drumurilor naționale și căilor ferate, forme de relief, lista țărilor din lume cu suprafața și populația, etc. În 1999 am început să scriu despre fotbal și despre industria auto. Începând cu 2000 am scris un fel de jurnal cu evenimente reale din viața mea, iar din 2002 și un jurnal al viselor.

Începând cu 2004 am făcut în Excel un tabel cu melodiile mp3 pe care le-am download-at în calculator pentru a da fiecărei melodii o notă (rating) de la 0 la 16 și a face topul celor mai buni artiști, albume, și genuri muzicale, folosind formule matematice, care arăta preferințele mele muzicale în stilul unui data scientist.

Alte lucrări erau despre jocuri, de exemplu lista obiectelor din The Sims (scris 2003 în Word), arborele misiunilor din Grand Theft Auto, tabel cu vehiculele din joc, masurând viteza maximă a fiecăruia (scris 2004 în Excel).

După conectatea la internet în 2005 am abandonat majoritatea lucrărilor mele, ca de exemplu cele de geografie, fiindcă existau liste mai detaliate pe Wikipedia. Dar am continuat bazele de date despre mașini care nu aveau echivalent pe internet.

Stilul de scriere

În 1999 am început să scriu cu diacritice, iar în 2000 cu litere mici (anterior scriam pe calculator doar cu majuscule, ca pe caiete). Pentru diacritice am configurat în Word 10 combinații de taste: Alt+A = ă, Alt+Shift+A = Ă, Alt+Ctrl+Shift+A = Â, ș.a.m.d.

Uitandu-mă prin fișierele avute în calculator, în special Readme.txt de la diverse programe și jocuri MS-DOS, în 1998 am devenit fascinat de Notepad, datorită fontului Fixedsys, făcusem câteva lucrări unde titlurile erau marcate cu linii de egaluri ==== cât toată lățimea ecranului. O perioadă din 2001-2004 chiar voiam să inpun fonturi monospace Courier New pe toate lucrările mele.

În 2003 am renunțat la indicațiile tatălui ca cele despre mărimea fontului, am reformatat documentele Word și optimizat pentru vizualizare pe ecran (în loc de printare). Am trecut la font de 10pt, titluri de 20pt, subtitluri de 15pt, titlurile având font alb pe un fundal colorat pe toată lățimea paginii. Lucrările în Excel de asemenea aveau capul tabelului cu text alb pe fundal albastru, încă din 2001, apoi din 2003 coloram fiecare coloană sau grup de coloane în culorile curcubeului, iar în 2004 m-am întors de la font Courier New la Arial.

În 2009 mi-am făcut primul site web, pe care mi-am publicat munca în pagini scrise asemănător cu documentele Word, text aliniat la ambele margini și titluri cu fundal de altă culoare. Au existat câteva persoane care mi-au criticat site-ul, spunând că pare a fi făcut de un tipograf și nu de un webdesigner.

În 2015 am introdus un nou stil în documentele Word, eliminând fundalul închis la culoare la titluri și înlocuindu-l cu linii orizontale, asemănător cu fișierele TXT din era MS-DOS-ului.

Bazele de date cu mașini mi-au dominat viața

Pasiune mea pentru mașini a început în 1999, iar din 2003 compun tabele în Excel cu date tehnice ale tuturor mașinilor într-un format standard. Deși ambele talente, desenul și compus date, au originea în copilărie, eu fiind dintr-o familie de ingineri am încercat să câștig bani din servicii de desen AutoCAD și arhitectură, nu am avut prieteni în sectorul IT care mi-ar fi putut spune că bazele de date sunt o mină de aur.

Am publicat lucrările despre mașini pe site-ul meu în 2011 cu intenția de a le oferi gratuit altor pasionati de automobile, dar în 2012 mi-am dat seama că pagina este vizitată de mari firme din industria auto, asigurări, tuning, piese auto, web designeri și programatori de aplicații de mobil, dispuși să dea sute de dolari pe o bază de date completă, corectă și actualizată frecvent.

Unii din acești programatori au cunoștiințe ZERO despre industria auto, iar văzând site-ul meu găzduit gratuit și cu design slab, ieșeau de pe site fără a mă mai contacta și a îmi spune cine sunt și ce vor. O greșeală a fost că în fiecare fișier Excel, prima foaie era un articol despre mine, asemănător cu revistele auto în care prima pagină e un editorial. Clienții nu se uitau și pe restul foilor unde ar fi văzut adevăratele date de care erau interesați, probabil navigau pe multe site-uri.

După un an mi-am dat seama ce fel de oameni îmi vizitează site-ul, Am căutat pe Google „car database” pentru prima dată văzând că mai sunt și alte site-uri care vindeau baze de date cu mașini, însă pline de greșeli și neactualizate de ani de zile. Am făcut multe schimbări, atât în baza de date, cât și în design-ul site-ului, printre care mutarea pe un domeniu .com plătit și platformă WordPress cu un plugin de magazin online unde lumea să facă plata iar „produsul” (fișierul Excel) să fie livrat automat printr-un email cu link de download, doar așa în 2013 am avut vânzări semnificative.

Dar cum a început pasiunea pentru bazele de date auto

În primăvara anului 1999 mi-a venit ideea să scriu cu creionul pe hârtie o listă cu mărcile de mașini. Vreo 40 mărci mi-au venit în minte, cu tot cu țara de origine, mașini pe care le vedeam pe stradă în drumul meu zilnic de la părinți către școală și apoi către bunici. Apoi am luat ziarul RAID și m-am uitat la „alte mărci” și am adăugat mașini mai rare, japoneze și americane. Apoi le-am arătat parinților lista cu ~60 mărci să îmi zică dacă le-am scris bine. Atunci tata mi-a zis și de alte mărci care nu le vedeam pe șoselele României (Ferrari, Lamborghini).

Lista mea avea multe greșeli, credeam că Mercedes (cea mai de lux marcă în România anilor ’90) e americană, că ARO are proveniență Land Rover (de fapt primul model ARO a fost o copie a mașinii rusești GAZ)., dar fiindcă idioții de la ziarul RAID nu făcuse categorie „Vânzări Daewoo” cum făceau pentru alte mărci Europene, anunțurile de vânzare cu Tico, Cielo, Espero, Nubira, Leganza erau puse la „Vânzări alte mărci” și nu spuneau și numele mărcii, am crezut că România are ~10 mărci de mașini, nu știam că ele sunt modele Daewoo (știam de Daewoo doar ca marcă de electrocasnice).

La scurt timp, un vecin ne-a dat Auto Catalog 1997, atunci mi-am dat seama că în lume sunt vreo 160 mărci de mașini. Atunci am aflat pentru prima dată că Daewoo produce și mașini, cele enumerate mai sus fiind modele Daewoo și nu mărci.

În vacanța pe litoral din 1999 am cumpărat Auto Catalog 1999 (care de fapt apăruse în toamna lui 1998) iar când m-am întors acasă am început să scriu pe calculator despre mașini. Documente Word de exemplu lista mărcilor de mașini cu țara de origine, și tabele Excel în care băgam datele de la câteva zeci de modele de mașiini, alese aleator, calculând puterea și cuplul per litru, etc.

Cum Dacia 1300-1310 se producea de 30 ani fără schimbări majore, la fel și Oltcit și ARO, nu știam că în lumea civilizată modele de mașini sunt înlocuite la aproximativ 6-10 ani. Am aflat asta prin 2000, motiv pentru care am început să scriu în Notepad liste de modele și caroserii pentru fiecare marcă, indicând clasa și anii producției. Ulterior am combinat fișierele TXT într-un singur fișier Modele.DOC și am făcut și un fișier Modele.XLS un fel de grafic cu bare orizontale care indică succesiunea modelelor.

În 2011 le-am publicat pe site sub numele Car Models List (DOC) și Car Models Timeline (XLS), oferindu-le la download gratuit că nu credeam că cineva va da bani pe un tabel fără date tehnice, ca ulterior să aflu că clienții sunt dispuși să dea bani pe un tabel care conține doar numele mărcilor și modelelor, fără date tehnice, cu condiția să fie Excel. În decembrie 2012 am făcut o versiune Car Models List în XLS.

Car Models List Car Models Timeline

În decembrie 2000 am început să scriu o enciclopedie auto detaliată în Word, documente pentru fiecare marcă în parte, adunând date din toate revistele care îmi picau în mâini. Fiecare model avea 2-8 pagini Word cu text de 12pt, în 2001 am scris vreo 70 modele iar în 2002 alte 80 modele. Fiindcă tata îmi făcea foile la imprimantă și le puneam într-un biblioraft asemănător cu revistele Arborele Lumii, scriam doar modelele ieșite din producție pentru a nu fi nevoit să le printez iar când apar modificări. În primăvara 2003 am abandonat proiectul pentru că lua prea mult efort și rezultatul era un dezastru, neavând un format standard pentru toate mașinile.

În primăvara 2003 m-am gândit să fac un tabel Excel într-un format standard pentru toate mașinile care se vând în Europa: un rând pentru fiecare versiune de motorizare. Numit Tipuri.xls, am scris 100 rânduri (tipuri), în noiembrie 2003 am decis coloanele tabelului: caroserie, număr de uși, poziția motorului, tracțiune, cilindri, capacitate cilindrică, putere, cuplu, accelerație, viteză maximă, consum mediu. Între decembrie 2003 și aprilie 2004 am adăugat în Excel 2800 rânduri (tipuri de mașini), produse de la mijlocul anilor 1990 până în prezent. În prezent vând tabelul sub numele Car Models & Engines Database.

Alt proiect se numea Caroserii+, ideea era să fac la imprimantă ca niște cărți de joc sau cărți de vizită, pe o parte poza mașinii, pe cealaltă parte date tehnice, lungime, lațime, înălțime, apatament, lista de motorizări. Pentru ca datele să încapă pe o cărți de 9×6 cm, 8 cărți pe pagină A4, fiecare tip de caroserie era scris individual, ceea ce însemna că Renault Mégane 1 din 1995-2004, având 5 tipuri de caroserii înainte de facelift și alte 6 după facelift, ar fi trebuit să aibă 11 foi.

Am abandonat ideea cu cărțile de joc și am scris toate cele 11 caroserii una după alta, iar sub ele lista de motorizări pentru toate, dar și ideea asta am abandonat-o după ce am scris câteva mărci de mașini Europene. Am făcut și o versiune Caroserii+.xls în care am scris lungimea, lățimea, înălțimea, apatamentul, modelele de mașini fiind sortate pe clasă, de la vechi la noi, scopul lui era vizualizarea evoluției mașinilor care cresc în dimensiuni cu fiecare model succesiv.

În 2012 am adăugat modelele japoneze și americane care se vănd în Europa, și vindeam cele 2 fișiere DOC și XLS la pachet, ca în 2013 să le vând separat sub numele Car Models Encyclopedia (DOC, 360 pagini) și Car Models Database (XLS, peste 2000 rânduri), ca apoi să îmi dau seama că clienții nu dau bani pe documente Word cum dau bani pe tabele Excel, abandonând Car Models Encyclopedia. Printre clienți se numără producători de huse auto sau firme de transport auto care taxează în funcție de dimensiunea mașinii.

Car Models Database

Revista Auto Motor și Sport a încetat publicarea Auto Catalog-ului în România în 2009, fiind nevoit să cumpăr de pe eBay.de versiunea germană a catalogului. Am putut face asta în 2012 datorită vânzărilor de baze de date. Am cumpărat succesiv, până în 2014 când m-am ales cu colecția completă Auto Katalog 1970-2014 (45 reviste), vizibilă în poza de mai jos.

Auto Katalog

Am extins Car Models & Engines Database adăugând noile modele de mașini, dar și extinzând istoria către anii 1970, iar în 2014-2015 am refăcut-o cu 40 coloane, introducând manual toate datele din AutoKatalog, ca în acest video. Estimez să fi petrecut 1000 ore de muncă.

Ghinion, AutoKatalog nu s-a mai publicat nici în Germania dupa 2014. Am reușit să continui proiectul extrăgând date de pe un site german cu un program automat de web scraping și aranjându-le într-un format asemănător cu datele pe care le luam din revista AutoKatalog.

Alte baze de date

În 2005 am compus în Excel statistica blocurilor și apartamentelor din Ploiești, extinsă în 2007-2008 către orașele din jurul Ploieștiului, inclusiv București și Târgoviste. Fiecare rând din tabel fiind un model de bloc, indicând numărul de etaje și apartamente, înmulțit cu numărul de exemplare din acel bloc, pentru calcularea numărului de blocuri și apartamente din fiecare cartier și apoi oraș. Tabelul nu conținea rânduri pentru blocuri individuale.

În 2009-2011 am compus în Excel baza de date a blocurilor din Singapore, de data asta fiecare bloc individual avea un rând. Fiindcă nu mă puteam decide asupra unui format standard pentru toate cartierele, fiecare cartier avea alt format, am abandonat proiectul după 2 ani timp în care făcusem doar jumătate din cele aproximativ 10.000 blocuri din Singapore.

Văzând succesul vânzărilor de baze de date cu mașini, în 2012 am publicat și tabelul incomplet al blocurilor din Singapore invitând lumea să mă contacteze și să explice ce ar avea nevoie, iar în 2014 mi-am făcut o idee despre ce vrea lumea, am îmbunătățit tabelul și l-am pus la vânzare. Prima vânzare am făcut-o în Mai 2015. Clienții sunt agenții imobiliare, asigurări de locuințe, telecomunicații, curierat, etc.

Tot în 2014 am publicat pe site baza de date cu orașele lumii (bazată pe Encarta Encyclopedia) și cea cu sistemul solar.

În ianuarie 2018 am făcut un tabel similar pentru cele aproximativ 1800 blocuri din Ploiești, cu câte un rând pentru fiecare bloc. Din toamna 2019 am început extinderea proiectului la restul județului Prahova, iar în 2020 la județele vecine.

Experienta personală îmi permite să ghicesc anul construirii oricărui bloc din România (cu aproximație +/- 5 ani) doar uitându-mă la poza din satelit, pentru numărul de etaje și apartamente mă uit pe Google Streetview. Ofer datele la vizualizare gratuită pe Google Maps. Un proiect unic în România.

Web scraping a făcut revoluția în viața mea

În August 2015 am descoperit programele care copiază automat date de pe site-uri, mai exact www.import.io, o procedură numită „web scraping„. Import.io era la vremea respectivă un program gratuit fără limite, dar în Aprilie 2016 au introdus planuri pentru conturile noi: gratuit cu limită la 50.000 pagini pe lună și $249/lună cu limită la 50.000 pagini/lună, dacă inițial mi-au zis că eu voi putea folosi contul nelimitat, în Septembrie 2016 mi-au blocat contul iar limita a fost redusă la 500 pagini/lună pentru conturile gratuite și 5.000 pagini/lună pentru $249/lună.

În Noiembrie 2015 m-am asociat cu un prieten programator din Pakistan pentru a îmi face scrapere pentru site-uri prea complicate pentru import.io. Faptul că import.io mi-a blocat contul i-a dat lui ideea să facă propriul program de scraping. În prezent oferim amândoi servicii de scraping cu propriile programe scrise în VB.NET, C#, Python, etc.

Ca să vă faceți o idee cât câștigăm: îmi ia 30 minute să studiez site-ul, să scriu codurile care indică ce date să extragă, apoi rulez programul care are o viteză medie de 1 pagină/secundă, dacă site-ul respectiv are câteva mii de pagini, treaba ar dura 1-2 ore și clienții dau cu ușurință 100 dolari. Adică $50/oră de muncă, de 10 ori veniturile părinților mei dacă împart salariul lor lunar la numărul de ore petrecute la birou. Am avut clienți care m-au plătit și 500 dolari pentru o bază de date cu sute de mii de rânduri, la care am fost nevoit să rulez programul de scraping câteva zile. Ca să nu mai zic de faptul că pot rula mai multe scrapere în paralel, iar o bază de date odată făcută, o pot vinde la mai multe persoane.

Veniturile din servicii de web scraping și vânzarea de baze de date m-au făcut să renunț la meseria anterioară: arhitectura, unde era nevoie să muncesc de 10 ori mai mult pentru aceeași sumă de bani, iar fiecare proiect de casă fiind personalizat pe dorințele clientului, șansele să îl pot revinde altor clienți erau minime.

Am făcut noi baze de date cu mașinile care se vând în America (2014, ajutat de alt programator din Singapore), în India (august 2015), în Orientul Mijlociu (mai 2016), în Australia (iunie 2017), motociclete (2016), condominium-urile din Singapore (octombrie 2015), zgârie-nori din toată lumea (decembrie 2015), telefoane mobile (august 2016), etc.

Notă: anterior evitam copierea datelor de pe site-uri, fiindcă nu credeam că cineva va fi dispus să dea MIE bani pe o bază de date care nu e compilația MEA originală ci este copiată de pe un site. M-am înșelat, pe majoritatea clienților nu îi interesează originalitatea, ei plătesc de fapt servicul de a extrage datele din site către un format Excel / CSV pe care să îl integreze în propriul site.

În teorie, extragerea datelor de pe site-uri, fie cu copy-paste, fie cu programe automate de scraping, poate fi o încălcare a drepturilor de autor (în special când extragi datele pentru a le folosi în propriul site care va face concurență), dar ținând cont de câte programe, jocuri, muzică și filme se piratează pe internet, șansele să fiu eu dat în judecată pentru că am copiat datele de pe site-uri sunt foarte mici. În cazul site-urilor care scriu în „termeni și condiții” că reproducerea datelor în scopul comercializării e interzisă, evit să public baza de date la vânzare pe site.

Mulți clienți îmi cer în mod specific (și mă plătesc) să extrag datele de pe anumite site-uri în ciuda termenilor care interzic acest lucru. Dacă refuzam acești clienți comentând încâlcarea drepturilor de autor, ei s-ar fi dus la alt freelancer care nu comentează și ei obțineau datele oricum.

Etichete:

1 commentarii

Lasă un comentariu

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *