
Modelo para elecciones en USA (DNN)



Allan J. Lichtman - Predicting the Next President-Rowman & Littlefield Publishers (2020)






Cargar datos del modelo Lichtman



Cargar los datos en el archivo election.csv:

# import panda and numpy
import pandas as pd
import numpy as np

# load data
election = pd.read_csv('election.csv')

Estudiar estructura de los datos



Mostrar todas las columnas con head de los datos cargados en election:

# show 5 records

Formar datos para entrenar y evaluar



Formar los datos para entrenar X_train, y_train y evaluar X_eval, y_eval:

# import train_test_split
from sklearn.model_selection import train_test_split

# build train and evaluation data for the vote and electorate results
X = election
y_v = election.pop('vote-victory')
y_e = election.pop('electoral-victory')
X_train_v, X_eval_v, y_train_v, y_eval_v = train_test_split(X, y_v, test_size=0.33, random_state=42)
X_train_e, X_eval_e, y_train_e, y_eval_e = train_test_split(X, y_e, test_size=0.33, random_state=42)

Crear arreglo de columnas para definir modelo



Para definir el modelo se crea el arreglo de las columnas feature_columns que se van a usar mediante:

import tensorflow as tf

NUMERIC_COLUMNS = ['party-mandate', 'nomination-contest', 'incumbency', 'third-party', 'short-term-economy', 'long-term-economy', 'policy-change', 'social-unrest', 'scandal', 'foreign-military-failure', 'foreign-military-success', 'incumbent-charisma', 'challenger-charisma']

feature_columns = []
for feature_name in NUMERIC_COLUMNS:
  feature_columns.append(tf.feature_column.numeric_column(feature_name, dtype=tf.int32))

Definir el modelos DNN



Con las columnas feature_columns se puede definir con estimator.DNNClassifier los modelos DNN_model_v para votación y DNN_model_e para electorado:

# define the DNN model for voting
DNN_model_v = tf.estimator.DNNClassifier(
# define the DNN model for electorate
DNN_model_e = tf.estimator.DNNClassifier(

Cargar datos para entrenar y evaluar



Para poder correr el entrenamiento se debe cargar los datos tanto de entrenamiento train_input_fn y evaluación eval_input_fn en tensores y barajarlos:

# input function for training
def train_input_fn(features, labels, batch_size):
    dataset =, labels))
    dataset = dataset.shuffle(10).repeat().batch(batch_size)
    return dataset

# input function for evaluation or prediction
def eval_input_fn(features, labels, batch_size):
    if labels is None:
        inputs = features
        inputs = (features, labels)

    dataset =
    assert batch_size is not None, 'batch_size must not be None'
    dataset = dataset.batch(batch_size)

    return dataset

Definir el modelo DNN para victoria por votar



Con las columnas feature_columns se puede definir con estimator.DNNClassifier el modelo DNN_model_v:

# define the DNN model v
batch_size = 10
train_steps = 40

for i in range(0,100):    
    DNN_model_v.train(input_fn=lambda:train_input_fn(X_train_v, y_train_v,batch_size),steps=train_steps)

Definir el modelo DNN para victoria por electorado



Con las columnas feature_columns se puede definir con estimator.DNNClassifier el modelo DNN_model_e:

# define the DNN model e
batch_size = 10
train_steps = 40

for i in range(0,100):    
    DNN_model_e.train(input_fn=lambda:train_input_fn(X_train_e, y_train_e,batch_size),steps=train_steps)

Evaluar el modelo DNN de victoria por votación



Evaluar el modelo de victoria por votación con los datos creados por train_input_fn:

# evaluate the DNN model of victory by votes
eval_result_v = DNN_model_v.evaluate(input_fn=lambda:eval_input_fn(X_eval_v, y_eval_v,batch_size))

Evaluar el modelo DNN de victoria por comitee



Evaluar el modelo de victoria por comitee con los datos creados por train_input_fn:

# evaluate the DNN model of victory by college
eval_result_e = DNN_model_v.evaluate(input_fn=lambda:eval_input_fn(X_eval_e, y_eval_e,batch_size))

Realizar pronóstico con el modelo DNN de victoria por votación



Pronosticar el resultado del modelo de victoria por votación con los datos de evaluación creados por eval_input_fn:

# forcast with the DNN model of victory by voting
predictions_v = DNN_model_v.predict(

results_v = list(predictions_v)

Realice el pronóstico con el modelo DNN de victoria por comitee



Pronosticar el resultado del modelo de victoria por comitee con los datos de evaluación creados por eval_input_fn:

# forcast with the DNN model of victory by college
predictions_e = DNN_model_e.predict(

results_e = list(predictions_e)

Histograma de las probabilidades de victoria



Pronosticar el resultado del modelo de victoria por comitee con los datos de evaluación creados por eval_input_fn:

# show histogram of probabilies
import numpy
from matplotlib import pyplot

bins = numpy.linspace(0, 1, 10)
prob_v = [pred['probabilities'][1] for pred in results_v]
prob_e = [pred['probabilities'][1] for pred in results_e]

pyplot.hist([prob_v,prob_e], bins, label=['vote','college'])
pyplot.title('predicted probabilities')
pyplot.legend(loc='upper right')

Curvas ROC



Para usar este pronostico se debe definir un valor limite de la propiedad para definir sobre que valor se va a pronosticar que se sobrevive y bajo la cual se pronosticara la no sobre-vivencia. Para ello se debe evaluar la probabilidad de que se pronostique la sobre-vivencia y se observe esta (true positive) y compararla con la probabilidad que de pronostique la sobre-vivencia cuando no se sobrevive (false positive).\\nEl factor true-positive TPR o sensitividad se define como\\n\\n


\\n\\ndonde true-positive TP los casos pronosticados correctamente como positivos y los false-negative FN que corresponden a los casos pronosticados como negativos que resultan negativos.\\nEl factor false-positive FPR o sensitividad se define como\\n\\n


donde false-positive FP los casos pronosticados como positivos cuando es en realidad falso y los false-negative FN que corresponden a los casos pronosticados como negativos que resultan negativos.

from sklearn.metrics import roc_curve
from matplotlib import pyplot as plt

fpr, tpr_v, _ = roc_curve(y_eval_v, probs)
fpr, tpr_e, _ = roc_curve(y_eval_e, probs)
plt.title('ROC curve')
plt.xlabel('false positive rate')
plt.ylabel('true positive rate')
plt.legend(loc='lower right')

La representación de ambas probabilidades se denominan un diagrama de ROC (Receiver Operating Characteristic):

Cargar y estudiar datos a pronosticar



Cargar y mostrar 6 columnas con head de los datos cargados en election_scenarios:

# load and show 6 scenarios
election_secnarios = pd.read_csv('election-secnarios.csv')

Pronosticar resultados de los escenarios contenidos en election_scenarios:

predictions_v = DNN_model_v.predict(

predictions_e = DNN_model_e.predict(

results_v = list(predictions_v)
results_e = list(predictions_e)

def x(res,j):
    class_id = res[j]['class_ids']
    probability = int(res[j]['probabilities'][class_id] *100)

    if int(class_id) == 0:
        return ('%s%% probalitity to %s' % (probability,'Challenger'))
        return ('%s%% probalitity to %s' % (probability,'Incumbent'))

print ('Predictions for the scenarios:')

for i in range(0,6):    
    print (x(results_v,i)+','+x(results_e,i))

Predictions for the scenarios:

68% probalitity to Incumbent,60% probalitity to Incumbent

80% probalitity to Incumbent,72% probalitity to Incumbent

86% probalitity to Incumbent,76% probalitity to Incumbent

90% probalitity to Incumbent,76% probalitity to Incumbent

89% probalitity to Incumbent,76% probalitity to Incumbent

93% probalitity to Incumbent,75% probalitity to Incumbent

