Je veux construire un indice de criminalité et un indice d'instabilité politique basés sur des reportages


17

J'ai ce projet parallèle où j'explore les sites d'information locaux de mon pays et je veux construire un indice de criminalité et un indice d'instabilité politique. J'ai déjà couvert la partie recherche d'informations du projet. Mon plan est de faire:

  • Extraction de rubrique non supervisée.
  • Détection des doublons proches.
  • Classification supervisée et niveau d'incident (crime / politique - élevé / moyen / faible).

J'utiliserai python et sklearn et j'ai déjà recherché les algorithmes que je peux utiliser pour ces tâches. Je pense que 2. pourrait me donner un facteur de pertinence d'une histoire: plus il y a de journaux publiés sur une histoire ou un sujet, plus pertinent pour cette journée.

Ma prochaine étape est de construire l'index mensuel, hebdomadaire et quotidien (national et par ville) sur la base des fonctionnalités que j'ai, et je suis un peu perdu ici car la "sensibilité à l'instabilité" pourrait augmenter avec le temps. Je veux dire, l'indice de l'incident majeur d'instabilité de la dernière année pourrait être inférieur à l'indice de cette année. Également si vous souhaitez utiliser une échelle fixe de 0 à 100 ou non.

Plus tard, j'aimerais pouvoir prédire des incidents sur cette base, par exemple si la succession d'événements au cours des dernières semaines conduit à un incident majeur. Mais pour l'instant, je serai heureux de faire fonctionner la classification et de construire le modèle d'index.

J'apprécierais tout pointeur sur un article, des lectures ou des réflexions pertinentes. Merci.

PD: Désolé si la question n'appartient pas ici.

MISE À JOUR : Je n'ai pas encore "réussi", mais récemment il y a eu des nouvelles d'un groupe de scientifiques qui travaillent dans un système pour prédire les événements en utilisant des archives de nouvelles et ont publié un article pertinent Mining the Web to Predict Future Events (PDF ).


Pour la partie technique (les outils), je recommanderais deux livres comme bon point de départ pour O'Reiley: l'intelligence collective (avec le code Python), l'apprentissage automatique (avec le code R) ... pour capturer des sujets liés aux vôtres. La prochaine étape pourrait être le site Web de Manning ... Pour la partie méthodologique, je recommanderais le groupe Web sémantique sur LinkedIn.
Radu Marius Florin

Super comme cette question. Tenez-nous au courant !!
entropie

Réponses:


1

Considérez les variations du score GINI.

Il est normalisé et sa sortie varie de 0 à 1.

ÉDITER:

Pourquoi GINI est "cool" ou au moins potentiellement approprié:

C'est une mesure de l'inégalité ou de l'inégalité. Il est utilisé comme mesure sans échelle pour caractériser l'hétérogénéité des réseaux sans échelle, y compris les réseaux infinis et aléatoires. Il est utile dans la construction d'arbres CART car il s'agit de la mesure de la puissance de fractionnement d'un partage de données particulier.

En raison de sa gamme:

  • il y a moins d'erreurs d'arrondi. Les plages très éloignées de 1.0 ont tendance à souffrir de problèmes numériques.
  • il est lisible par l'homme et plus accessible à l'homme. Les humains ont une compréhension plus concrète de certains objets que de milliards.

Parce qu'il est normalisé:

  • les comparaisons de scores sont significatives, un 0,9 dans un pays signifie le même niveau de non-uniformité relative qu'un 0,9 dans tout autre pays.
  • Elle est normalisée par rapport à la courbe de Lorenz pour une uniformité parfaite. Par conséquent, les valeurs sont des indicateurs pertinents de la relation de la distribution des valeurs d'intérêt avec la courbe de Lorenz.

Les références:


4
Bienvenue sur le site, @EngrStudent. Pourriez-vous en dire un peu plus sur le coefficient GINI, et pourquoi c'est la bonne réponse ici? Puisque vous êtes nouveau ici et commencez à contribuer, vous voudrez peut-être lire notre FAQ , qui contient beaucoup d'informations sur le site.
gung - Réintégrer Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.