cette question a commencé comme " Clustering spatial data in R " et est maintenant passée à la question DBSCAN.
Comme les réponses à la première question l'ont suggéré, j'ai cherché des informations sur DBSCAN et j'ai lu quelques documents. De nouvelles questions ont surgi.
DBSCAN nécessite certains paramètres, l'un d'eux est "distance". Comme mes données sont en trois dimensions, longitude, latitude et température, quelle "distance" dois-je utiliser? quelle dimension est liée à cette distance? Je suppose que ce devrait être la température. Comment puis-je trouver une telle distance minimale avec R?
Un autre paramètre est le nombre minimum de points nécessaires pour former un cluster. Existe-t-il une méthode pour trouver ce numéro? Malheureusement, je ne l'ai pas trouvé.
Recherche sur Google Je n'ai pas trouvé d'exemple R pour utiliser dbscan dans un ensemble de données similaire au mien, connaissez-vous un site Web avec ce genre d'exemples? Je peux donc lire et essayer de m'adapter à mon cas.
La dernière question est que ma première tentative de R avec DBSCAN (sans réponse appropriée aux questions précédentes) a entraîné un problème de mémoire. R dit qu'il ne peut pas allouer de vecteur. Je commence par une grille espacée de 4 km avec 779191 points qui se termine par environ 300000 lignes x 3 colonnes (latitude, longitude et température) lors de la suppression des points SST non valides. Tout conseil pour résoudre ce problème de mémoire. Cela dépend-il de mon ordinateur ou de DBSCAN lui-même?
Merci pour la patience de lire un long message probablement ennuyeux et pour votre aide.