Use Okhttp for jsoup connect and move jsoup class in to crawler #705

codingPF · 2021-03-09T14:55:58Z

Die Okttp Änderung ist in der JsoupConnection Klasse passiert.
Die Connection ist in den Crawler gewandert und wird dort mit den SenderConfig initializiert.
Testfälle sind angepasst.

derreisende77 · 2021-03-09T16:13:31Z

My 2ct:

JsoupConnection.getDocument() sollte statt response.code() IMHO besser response.isSuccessful() verwenden.
response.body() kann gem. Doku (und praktischer Erfahrung) null sein obwohl response successful: This always returns null on responses returned from cacheResponse, networkResponse, and priorResponse.
Daher sollte ein body != nullcheck eingefügt werden. Das Problem hatten wir an diversen anderen Stellen schon.
Ggf. wäre try-with-resources für ResponseBody dann auch nicht das schlechteste um Leaks zu vermeiden.
statt OkHttpClient.Builder() sollte MLib´s MVHttpClient genutzt werden damit alle denselben Timeout und User-Agent verwenden. Hat auch den Vorteil dass man dann sehr einfach traffic counter und traffic logging einbauen kann wie es im client schon vorhanden ist.

pidoubleyou · 2021-03-09T21:19:32Z

der MVHttpClient wird in den neuen Crawlern bisher nicht verwendet, deshalb wird durch den Einbau an dieser Stelle nichts gewonnen. Zumal OkHttp durch dem Umbau weiterhin nur für das Lesen von HTML-Seiten verwendet wird, beiREST-APIs wird
WebTarget verwendet

codingPF · 2021-03-10T08:06:37Z

Die Punkte 1 bis 4 habe ich hinzugefügt.
In MVHttpClient gibt es keinen User Agent und es wird nur das gleiche Timeout für alle crawler (static) gesetzt. Im Moment (und vorher) wurde das Senderkonfig Timeout verwendet. Das macht für mich erstmal mehr Sinn.

Nicklas2751

Sieht schon ganz gut aus. Ein paar kleinigkeiten habe ich noch gefunden. Ansonsten passt es für mich.

Nicklas2751 · 2021-03-13T14:52:42Z

src/main/java/de/mediathekview/mserver/base/webaccess/JsoupConnection.java

+        httpResponseCode = response.code();
+        if (response.isSuccessful()) {
+          if (response.body() != null) {
+            responseString = response.body().string();


Der responseString kann direkt return werden.

Nicklas2751 · 2021-03-13T14:55:34Z

src/main/java/de/mediathekview/mserver/base/webaccess/JsoupConnection.java

+          if (response.body() != null) {
+            responseString = response.body().string();
+          }
+          break;


Anstatt der beiden breaks lieber einen if(response.body() == null || httpRepsonseCode == 404 || httpResponseCode == 410) und darin den reponse string auf leer setzen. Im else fall den reponse string auf den body setzen wie in Zeile 46. Nach dem if den response string returnen. So werden die beiden breaks eingespart und die Komplexität gesenkt.

Nicklas2751 · 2021-03-13T14:56:16Z

src/main/java/de/mediathekview/mserver/base/webaccess/JsoupConnection.java

+    int retry = 0;
+    int httpResponseCode = 0;
+    String responseString = "";
+    while (retry < 3) {


Ich denke, eine do-while wäre hier verständlicher.

Nicklas2751 · 2021-03-13T15:04:47Z

src/main/java/de/mediathekview/mserver/base/webaccess/JsoupConnection.java

  }

-  public Document getDocument(String url) throws IOException {
-    return getConnection(url).get();
+  public String getString(String url) throws IOException {


getString ist recht nichts sagend, vorallem wenn man es dann im Crawler liest: crawler.getConnection().getString(

Zusätzlich verwirrt das get. Man könnte denken es wird nur eine variable ausgelesen und nicht eine Verbindung aufgebaut. Wie wäre es mit requestBody oder readUrlContent?

rename von getXYZ auf requestBodyAsXYZ

src/main/java/de/mediathekview/mserver/crawler/basic/AbstractCrawler.java

pidoubleyou · 2021-03-24T20:45:03Z

@codingPF Der Build für den PR scheitert mit einem Compile-Fehler. Kannst du dir diesen anschauen?

Nicklas2751 · 2021-03-28T15:55:52Z

src/main/java/de/mediathekview/mserver/base/webaccess/JsoupConnection.java

+          final ResponseBody body = response.body()) {  
+        httpResponseCode = response.code();
+        if (response.isSuccessful()) {
+          if (response.body() != null) {


Die beiden ifs könnte man noch zu einem vereinen. ;)

src/main/java/de/mediathekview/mserver/base/webaccess/JsoupConnection.java

Use Okhttp for jsoup connect and move jsoup class in to crawler

d8aec3d

change Jsoupconnection to isSuccessful, check null and close body

3dfa524

Nicklas2751 requested changes Mar 13, 2021

View reviewed changes

rename getXYZ to requestBodyAsXYZ

80791f6

codingPF requested a review from Nicklas2751 March 13, 2021 23:15

codingPF and others added 2 commits March 14, 2021 00:19

Merge branch 'develop' into developJSoupConnect

9e9f56c

Merge branch 'develop' into developJSoupConnect

33b20c0

Remove Typo

5823b34

codingPF requested a review from pidoubleyou March 27, 2021 11:24

Nicklas2751 requested changes Mar 28, 2021

View reviewed changes

codingPF added 2 commits March 28, 2021 18:21

Update JsoupConnection.java

1ee1177

Update JsoupConnection.java

e008e06

Nicklas2751 merged commit aeba5e3 into mediathekview:develop Mar 28, 2021

pidoubleyou mentioned this pull request Mar 28, 2021

Jsoup.connect ausbauen #688

Open

3 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Use Okhttp for jsoup connect and move jsoup class in to crawler #705

Use Okhttp for jsoup connect and move jsoup class in to crawler #705

codingPF commented Mar 9, 2021

derreisende77 commented Mar 9, 2021

pidoubleyou commented Mar 9, 2021

codingPF commented Mar 10, 2021

Nicklas2751 left a comment

Nicklas2751 Mar 13, 2021

codingPF Mar 13, 2021

Nicklas2751 Mar 13, 2021

codingPF Mar 13, 2021

Nicklas2751 Mar 13, 2021

codingPF Mar 13, 2021

Nicklas2751 Mar 13, 2021

codingPF Mar 13, 2021

pidoubleyou commented Mar 24, 2021

Nicklas2751 Mar 28, 2021

Use Okhttp for jsoup connect and move jsoup class in to crawler #705

Use Okhttp for jsoup connect and move jsoup class in to crawler #705

Conversation

codingPF commented Mar 9, 2021

derreisende77 commented Mar 9, 2021

pidoubleyou commented Mar 9, 2021

codingPF commented Mar 10, 2021

Nicklas2751 left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

pidoubleyou commented Mar 24, 2021

Choose a reason for hiding this comment