Scraper megoldasok
Posted by Late-Aardvark-8186@reddit | programmingHungary | View on Reddit | 14 comments
Sziasztok! Oldalakat scrapelek, jelenleg browserbase-el, mert egy botot programozok,ami automatan figyeli 0-24 az elado motor hirdeteseket Svajcban, (motoscout24,anibis,fb marketplace) es automata uzenetet kuld telegrammon a jo dealekrol. A browserbase az egyetlen mukodo scraper jelenleg,amit talaltam, de az is neha elhasal a robot testen,amit az oldal bedob. Van esetleg barmilyen mas lehetoseg,amit ismertek?
Ill_Cost_1718@reddit
Public api nincs? Én LinkedIn-t scrape-elek, de szerencsére van api, amivel sokkal egyszerűbb.
ICouldBeAnyone8@reddit
A linkedin sracpe-elesrol kicsit tudnál bővebben írni, hogy mit használsz és hogyan? Akar privátban
Ill_Cost_1718@reddit
Van public API job listára amivel leszedem a job ID-kat, Majd egyenként a job adatokat. Van rate limiting, szóval néha kell pár mp szünet. Python-ban van. Szűr description-ben, Job title-ben szereplő szavak alapján. Lehet exclude-olni szintén szavak alapján. Tud nyelv felismerést, így szintén exclude-olhatom a nem magyar/angol hirdetéseket. Excel tab-okra pakolja a job linkeket, cég nevet, job title-t, job ID. Deduplikál is, így csak az új hirdetéseket szedi le új futásnál. Ennyi.
Late-Aardvark-8186@reddit (OP)
nincs, tul egyszeru lenne akkor
supreme_harmony@reddit
en is a beautifulsoup-ot hasznalom, de itt jegyezzuk meg, hogy ezt tiltja a TOS, szoval legalisan semmivel nem tudod ezt megcsinalni.
Late-Aardvark-8186@reddit (OP)
a kerdesem nem feltetlen a legalitasra iranyult, magancelra keszitem a botot
supreme_harmony@reddit
magancelra se legalis a scraping... Tessek elolvasni a felhasznalasi felteteleket.
AradasugyiMiniszter@reddit
Browser renderhez a Beautiful soup nem elég, oda headless Chrome kell seleniummal.
Comprehensive-Act350@reddit
Én is írtam még pár éve ilyen scriptet egy havernak, python volt, bs-el. Az illető ment ki kocsikért, Ausztria, Németország. Akkor még nem volt ai, kézzel írtam, email-t küldtem, azt kértek. De a vége felé azt mondta, a nagyok is mind így csinálják, perceken belül lecsapnak a jó vételre.
No-Interaction-2724@reddit
bs4 python, ai megírja neked elég jól a scriptet
xpath, css támogatott simán
Late-Aardvark-8186@reddit (OP)
jelenleg JavaScript-el probalkozok,nem pythonnal
No-Interaction-2724@reddit
célszerszám, pythonban találod meg a legrelevánsabb libeket.
ha js kell akkor emulálj egy headless chromeot, és ott assertelgess, selenium, playwright stb
Dragener9@reddit
Playwright
Spk202@reddit
Python: selenium, beautifulsoup