RSS-feeds "START"-parameter - overstige grænse på 10.000

Tags:    rss

Hej, jeg sidder og roder med et program, der gør brug af RSS-feeds angående patentansøgninger på baggrund af nogle søgeparametre - et eksempel kommer længere nede. Jeg er dog gået imod en mur, da man kun kan se 500 patentansøgninger ad gangen. For at kunne løbe igennem de forskellige ansøgninger har jeg derfor gjort brug af parameteret "START" som jeg har indsat i URL'en for at finde de korrekte patentansøgninger. Det virker som om, at START-kommandoen kun kan håndtere værdier til og med 10.000. Er der nogen, der kan hjælpe mig med at komme ud om den grænse?

Prøv at kigge på følgende eksempel:
(I skal ikke tage jer af lange loading-tider)

Her er en søgning af amerikanske patenter i 1998, hvor man starter med nr. 500 (vilkårligt tal): http://www.wipo.int/pctdb/en/rss.jsp?C=1&QUERY=%28DP%2F1998.*.*%29+AND+%28NPCC%2FUS%29+&START=500 . Den virker fint.

Her er en søgning af amerikanske patenter i 1998, hvor man starter med nr. 10001: http://www.wipo.int/pctdb/en/rss.jsp?C=1&QUERY=%28DP%2F1998.*.*%29+AND+%28NPCC%2FUS%29+&START=10001 . Den viser følgende fejl:

"XML tolkningsfejl: malplaceret mærke. Forventede: </TITLE>.
Placering: http://www.wipo.int/pctdb/en/rss.jsp?C=1&QUERY=(DP%2F1998.*.*)+AND+(NPCC%2FUS)+&START=10001
Linje 1, kolonne 30:<HTML><HEAD><TITLE>: Error</title>
-----------------------------^"

Venlig hilsen
Bjarke



4 svar postet i denne tråd vises herunder
1 indlæg har modtaget i alt 3 karma
Sorter efter stemmer Sorter efter dato
Har du set på kildekoden til feedet? Den fejlbesked du ser kommer fordi serveren erklærer at siden er i et XML-baseret format, mens den faktisk er i HTML-format. Indholdet af siden er:

<HTML><HEAD><TITLE>: Error</title>
</head>
<body bgcolor="#FFFFFF">
Starting point must be >= -1 and <= Total Number of results.
<!-- Start: 10001 Total: 10000-->
</body></html>





Nej, jeg må indrømme, at jeg ikke lige havde tænkt på det. Jeg forstår dog ikke helt, hvad du får ud af at se på kildekoden til feedet og hvordan du kan se, at fejlbeskeden skyldes, at serveren erklærer, at siden er i et XML-baseret format i stedet for HTML-format?

Umiddelbart tænker jeg, at jeg fejlbeskeden bare er udtryk for nogle begrænsninger de har lavet i forbindelse med RSS-feedet, men jeg er nu ikke så skarp til webprogrammering, så ret mig endelig :D



Den rigtige fejlbesked fra serveren er:

Starting point must be >= -1 and <= Total Number of results.

Og der står ret klart og tydeligt, at du ikke må bruge tal større end 10000, da der kun er 10000 elementer du kan hente.

Grunden til at den fejlbesked ikke er direkte synlig uden at bruge Vis kilde, er at browseren viser en XML-fejlbesked oven i, fordi den rigtige fejlbesked ikke er korrekt XML.



Okay, det giver lidt mening. Der er dog væsentligt flere end 10000 elementer man kan hente, men det er så vel en indbygget grænse.

Edit: Mange tak for dit svar forresten :)



Indlæg senest redigeret d. 17.06.2011 21:06 af Bruger #14927
t