• Vítejte na XBMC-Kodi.cz
  • Česko-slovenská komunita fanoušků XBMC/Kodi
Vítejte návštevníku! Přihlášení Registrace


Hodnocení tématu:
  • 10 Hlas(ů) - 2.9 Průměr
  • 1
  • 2
  • 3
  • 4
  • 5
Scraper ČSFD.cz
a co moj scraper? ten kombinuje data z csfd, imdb, tmdb a trakt. Tieto data sa potom pouzivaju aj v plugine SC.
Citajte jak se spravne ptat!
Tvorca doplnku 
Stream Cinema CS & SK.
 
Citovat
Zdravím, od včerejška mám problém s CSFD scraperem (zkoušel jsem verze od 3.3a až po 3.11) a vždy vyhodí chybu "nelze se připojit ke vzdálenému serveru".

Problém je na třech LibreElec RPi 3B i na Kodi na Xbox One. Při použití BBaron scraperu vyhledávání funguje, ale špatně se tagují některé filmy. Složky mám pojmenované stylem "Název_Filmu_(rok)" v češtině a z 1300 filmů je jich asi 100 špatně tagovaných, u CSFD scraperu všechno fungovalo jak má, tak by mě zajímalo, zda-li je problém u mě, nebo se na csfd udála nějaká aktualizace, která by znemožnila funkčnost scraperu ?

Předem díky za rady :)
 
Citovat
@hrubak Možná dočasný BAN z CSFD. Zkus počkat 24 hodin nebo počkej přes půlnoc. Nevím přesně kdy to uvolňují, jestli po uběhnutí času nebo při přechodu půlnoci. Případně si zkus změnit veřejnou IP.
 
Citovat
@Client: To mě nenapadlo, scraper mi jel už asi 2 roky bez problému, tak snad to bude jen to, zatím jsem ale přešel na BBaron na jednom RPi a ten jede (jen teda upravuji názvy filmů, aby se správně tagovali).
 
Citovat
Tipl bych si spis na nejakou novou controlu user agenta, URL, "hledana" pres curl v codi 403, ta sama pres browser OK..
 
Citovat
(09.11.2019, 12:47)hrubak Napsal(a): Zdravím, od včerejška mám problém s CSFD scraperem (zkoušel jsem verze od 3.3a až po 3.11) a vždy vyhodí chybu "nelze se připojit ke vzdálenému serveru".

Problém je na třech LibreElec RPi 3B i na Kodi na Xbox One. Při použití BBaron scraperu vyhledávání funguje, ale špatně se tagují některé filmy. Složky mám pojmenované stylem "Název_Filmu_(rok)" v češtině a z 1300 filmů je jich asi 100 špatně tagovaných, u CSFD scraperu všechno fungovSalo jak má, tak by mě zajímalo, zda-li je problém u mě, nebo se na csfd udála nějaká aktualizace, která by znemožnila funkčnost scraperu ?

Předem díky za rady :)

Stejný problém - také "Unable to connect to remote server". Už se tady mořím... 17
Protože jsem migroval na nový NAS a obnovil nastavení myslel jsem že je to tím - tak odinstalovávám. Zkouším. Měním. A nic....
QNAP TS-453B v HD station

kdyby někdo věděl stav dejte vědět. (teda nevím. ale nějak mi nejdou ani jiné scrappery (barron) - ale tam jsou zkoušení moc nedal)
 
Citovat
Je mozne ze za to moze moj scraper. Snazia sa ma vsemozne zablokovat, aby som nestahoval ich data. Kedze menim IP tak asi zacali blokovat curl a aj KODI useragenta
Citajte jak se spravne ptat!
Tvorca doplnku 
Stream Cinema CS & SK.
 
Citovat
to moc nechapu, jaky traffic jim tam delas? Smerujes requesty nekam centralne ci hromadne?

Leta letouci pouzivam obyc parser, nativni regex Kodi. IP je videt jen klientu, kteri scrapper pouzivaji, a to jen jeden request na kazdy film, ktery si pridaji, v podstate uplne stejny traffic jako pri prohlizeni stranek normalne, mozna mensi. Nedovedu si predstavit, ze by jim to jakkoli vadilo a nesetkal jsem se dosud s zadnymi problemy v omezovani, i kdyz nevim, co presne provadis ve svem pluginu.

Ted jsem mimo domov, ale tohle budu potrebovat poresit pozdeji Sad jenom jsem to v rychlosti zkontroloval, co to haze do logu a zkusil stejnou URL z prohlizece..
 
Citovat
CSFD si kotroluje trafic z IP (počet requestů v čase i absolutní počet v nějakém delším časovém úseku) už dlouho. Nevím jakou má konkrétní strategii a jaké limity, ale je fakt, že i z praktického používání je vidět, že tam k nějakým restrikcím dochází. Podle pokusů, které jsme před lety dělal, to bylo vázané na IP (stačilo změnit IP a začalo to fungovat). Je samozřejmě možné, že je to vázané i na identifikaci toho, kdo requesty posílá (user agent-a). Nevím, jak je to u @BBaron (na toho možná mají jiná měřítka), ale pokud k nějaké restrikci dojde, tak je to záležitost dočasná. Já si dnes ráno zkusil prescrapovat dva zdroje, jeden 200 filmů, druhý asi 60 a proběhlo to v pořádku. Je možné, že svou roli může sehrát i absolutní zatížení serveru, že v sobotu večer je zatížení větší než v neděli dopoledne a proto ty dlouhé odezvy na které Kodi reaguje chybou. Včera jsme nebyl doma, tak jsem to bohužel nemohl vyzkoušet.

Tak chyba byla u mne, scrapování v pořádku neproběhlo, tudíž jsem v situaci jako ostatní.
 
Citovat
"Já si dnes ráno zkusil prescrapovat"
Čím jsi to zkoušel? Já právě teď můžu potvrdit, že csfd (těžko říct proč, jestli kvůli Baronovu pluginu, možnému napojení na SC nebo co) momentálně na základe user-agenta Kodi pošle do kytek (403).

Používám vlastní jednoduchou rychlou verzi původního csfd, která používá nativní Kodi scrapování (žádné python skripty, které jsou v podstatě zbytečné bloat, nicméně podvržení by tam šlo jednoduše a v rámci pluginu), a bohužel je odstřelená taktéž. Nevím, jestli změna user-agenta půjde jednoduše, ale rozhodně je to nepříjemné, z důvodu toho, že to využívá interní funkcionalitu Kodi tak půjde o nehezké záplatování Sad

EDIT: Zaplať pánbu: https://kodi.wiki/view/HTTP
 
Citovat
@JimmyS Použil jsem scraper ČSFD.cz, verze 3.11, stažený z repozitáře XBMC-Kodi CZ/SK repozitář. Celkem standardní scraper Kodi, nevidím na něm nic špatného, funguje dobře. Přescrapoval jsme to ještě jednou. Jednou BBaron scraperem a pak znova ČSFD.cz.
 
Citovat
To je fakt zvláštní. 3.11 používá stejný přístup jako můj.

Když si zkusíš v prohlížeči (tzn. úplně mimo Kodi) podvrhnout agenta
Kód:
Kodi/18.4 (Windows NT 6.1.7601; WOW64) App_Bitness/32 Version/18.4-Git:20190831-3ade758ceb
jede ti csfd.cz? Mě totiž ne a pozdezřívám, že tobě to půjde :-)
 
Citovat
Ahoj u mě toto probíhá už od pátku (18.4 kodi.3.11 scraper,ubuntu 19.10)
 
Citovat
Kód:
Kodi/18.4 (Windows NT 6.1.7601; WOW64) App_Bitness/32 Version/18.4-Git:20190831-3ade758ceb

@JimmyS Tak skutečně, při explicitně změněném user agenta na text viz výše v chrome (W10) nebo wget (LibreELEC) se vrací na request "http://csfd.cz" kód 403. Stačí ale změna v řetězci user agenta a vrátí se správný obsah stránky. Těch změn jsem zkusil více, ne všechny pomohou. Rozhodující jsou změny v počátku řetězce...

Nicméně na obou Kodi (W10 i LibreELEC) mi ČSFD.cz scraper stále funguje. Ještě se tedy podívám jaký user agent posílá moje Kodi. Omlouvám se všem za špatnou informaci, a za to, že jsme ostatní, včetně sebe, navedl na špatnou cestu. Nevšiml jsem si, že na testovacím prostředí mám zdroje, u kterých jsem měl udělanou zálohu databáze. 10
 
Citovat
Vypadá to, že je rozhodující pouze řetězec "Kodi/" v user agent. Někde jsem našel, že by mohlo pomoct v Kodi za URL přidat "|User-Agent=<agent-string>" s vlastním user agentem. Neměl jsem čas to ale ještě vyzkoušet...
 
Citovat
Ahoj. Tak u mě už to taky nefunguje. Kdyby někdo našel řešení,tak sem s ním prosím.
 
Citovat
Používám tohle (včera fungující). Je to -jak už jsem psal dříve- hodně zjednodušená verze, v DB nepotřebuju mít více a je to rychlé. Na "officiální" addon by stačil jednoduchý PR se stejnou úpravou.


Přiložené soubory
.xml   csfdcz_imdbthmb.xml (Velikost: 6,87 KB / Stažení: 45)
 
Citovat
Poradíš mi, prosím, jak s tím xml souborem naložit? Umím jen instalovat doplňky ze zipu.
 
Citovat
Jsem úplný začátečník,
jestli jste identifikovali problém, je možné upravit verzi 3.11 tak aby fungovala :-)
 
Citovat
Zdravím, tak vidím, že v tom nejsem sám, zajímavé je, že BBaron scraper funguje I když dle popisu taky tahá data z csfd. Vůbec by mi nevadilo migrovat na BBaron scraper, jenom mě zajímá, jak potom správně pojmenovávat soubory, aby bylo správně tagováno? Je potřebova použít např. "Anglicky_Nazev_Filmu_(rok)" nebo vyhledává ještě nějak jinak? Díky za reakce.
 
Citovat
  


Přejít na fórum:


Prochází: 1 host(ů)