S'il s'agit d'une question de programmation, je vous suggère d'écrire votre propre expression régulière pour analyser tout le contenu récupéré. Les balises cibles sont IMG et A pour le HTML standard. Pour JAVA,
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
ceci avec les classes Pattern et Matcher devrait détecter le début des balises. Ajoutez la balise LINK si vous voulez également du CSS.
Cependant, ce n'est pas aussi facile que vous le pensiez initialement. De nombreuses pages Web ne sont pas bien formées. Extraire par programmation tous les liens que l'être humain peut "reconnaître" est vraiment difficile si vous devez prendre en compte toutes les expressions irrégulières.
Bonne chance!