Negative range positions in malformed HTML fragment #2175

KennyWongPFPT · 2024-07-22T15:06:29Z

Hello, please see below a test program that tries to extract the text node range positions from the malformed fragment foo<p/>far. Notice the malformed tag <p/>.

import org.jsoup.nodes.*;
import org.jsoup.parser.*;
import org.jsoup.select.*;

public class Test {
    public static void main(String[] args) {
        HtmlTreeBuilder treeBuilder = new HtmlTreeBuilder();
        Parser parser = new Parser(treeBuilder);
        parser.setTrackPosition(true);
        Document document = parser.parseInput("foo<p/>bar", "");
        NodeTraversor.traverse((Node node, int depth) -> {
            if (node instanceof TextNode textNode) {
                Range sourceRange = textNode.sourceRange();
                System.out.printf("text=%s start=%d end=%d%n",
                    textNode.text(),
                    sourceRange.start().pos(),
                    sourceRange.end().pos());
            }
        }, document);
    }
}

With release 1.16.1, all positions are negative:

% java -cp ~/.m2/repository/org/jsoup/jsoup/1.16.1/jsoup-1.16.1.jar Test.java
text=foo start=-1 end=-1
text=bar start=-1 end=-1

With release 1.18.1, it's a little better, except for the -1 start position for the bar text immediately following the malformed tag.

% java -cp ~/.m2/repository/org/jsoup/jsoup/1.18.1/jsoup-1.18.1.jar Test.java
text=foo start=0 end=3
text=bar start=-1 end=10

The text was updated successfully, but these errors were encountered:

jhy · 2024-07-29T01:57:06Z

Thanks for the clear report, fixed!

jhy self-assigned this Jul 29, 2024

jhy added bug Confirmed bug that we should fix fixed labels Jul 29, 2024

jhy added this to the 1.18.2 milestone Jul 29, 2024

jhy closed this as completed in dc3b6c5 Jul 29, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Negative range positions in malformed HTML fragment #2175

Negative range positions in malformed HTML fragment #2175

KennyWongPFPT commented Jul 22, 2024

jhy commented Jul 29, 2024

Negative range positions in malformed HTML fragment #2175

Negative range positions in malformed HTML fragment #2175

Comments

KennyWongPFPT commented Jul 22, 2024

jhy commented Jul 29, 2024