C ++ avec pthreads
Cela arrive à n = 14 en un peu moins d'une minute sur ma machine. Mais comme il ne s'agit que d'un ordinateur portable à 2 cœurs, j'espère que la machine de test à 8 cœurs pourra terminer n = 15 en moins de 2 minutes. Cela prend environ 4:20 minutes sur ma machine.
J'espérais vraiment trouver quelque chose de plus efficace. Il a obtenu d'être un moyen de calculer la déterminée d'une matrice binaire de manière plus efficace. Je voulais trouver une sorte d'approche de programmation dynamique qui compte les termes +1 et -1 dans le calcul des déterminants. Mais cela ne s'est tout simplement pas encore réalisé jusqu'à présent.
Puisque la prime est sur le point d'expirer, j'ai implémenté l'approche standard de la force brute:
- Boucle sur toutes les matrices Toeplitz possibles.
- Sautez l'un des deux dans chaque paire de matrices transposées. Étant donné que la matrice est décrite par des valeurs de masque binaire, cela est simple à faire en ignorant toutes les valeurs où l'inverse du masque binaire est plus petit que le masque binaire lui-même.
- Le déterminé est calculé avec une décomposition LR du manuel. À l'exception de quelques ajustements mineurs des performances, la principale amélioration que j'ai apportée à l'algorithme de mon livre de méthodes numériques est que j'utilise une stratégie de pivot plus simple.
- La parallélisation se fait avec pthreads. Le simple fait d'utiliser un espacement régulier pour les valeurs traitées par chaque thread a causé un très mauvais équilibrage de charge, j'ai donc introduit un peu de swizzling.
J'ai testé cela sur Mac OS, mais j'ai déjà utilisé du code similaire sur Ubuntu, donc j'espère que cela se compilera et fonctionnera sans accroc:
- Enregistrez le code dans un fichier avec une
.cpp
extension, par exemple optim.cpp
.
- Compilez avec
gcc -Ofast optim.cpp -lpthread -lstdc++
.
- Courez avec
time ./a.out 14 8
. Le premier argument est le maximum n
. 14 devrait se terminer en moins de 2 minutes, bien sûr, mais ce serait bien si vous pouviez aussi essayer 15. Le deuxième argument est le nombre de threads. Utiliser la même valeur que le nombre de cœurs de la machine est normalement un bon début, mais essayer certaines variations pourrait potentiellement améliorer les délais.
Faites-moi savoir si vous rencontrez des problèmes pour créer ou exécuter le code.
#include <stdint.h>
#include <pthread.h>
#include <cstdlib>
#include <iostream>
static int NMax = 14;
static int ThreadCount = 4;
static pthread_mutex_t ThreadMutex;
static pthread_cond_t ThreadCond;
static int BarrierCount = 0;
static float* MaxDetA;
static uint32_t* MaxDescrA;
static inline float absVal(float val)
{
return val < 0.0f ? -val : val;
}
static uint32_t reverse(int n, uint32_t descr)
{
uint32_t descrRev = 0;
for (int iBit = 0; iBit < 2 * n - 1; ++iBit)
{
descrRev <<= 1;
descrRev |= descr & 1;
descr >>= 1;
}
return descrRev;
}
static void buildMat(int n, float mat[], uint32_t descr)
{
int iDiag;
for (iDiag = 1 - n; iDiag < 0; ++iDiag)
{
float val = static_cast<float>(descr & 1);
descr >>= 1;
for (int iRow = 0; iRow < n + iDiag; ++iRow)
{
mat[iRow * (n + 1) - iDiag] = val;
}
}
for ( ; iDiag < n; ++iDiag)
{
float val = static_cast<float>(descr & 1);
descr >>= 1;
for (int iCol = 0; iCol < n - iDiag; ++iCol)
{
mat[iCol * (n + 1) + iDiag * n] = val;
}
}
}
static float determinant(int n, float mat[])
{
float det = 1.0f;
for (int k = 0; k < n - 1; ++k)
{
float maxVal = 0.0f;
int pk = 0;
for (int i = k; i < n; ++i)
{
float q = absVal(mat[i * n + k]);
if (q > maxVal)
{
maxVal = q;
pk = i;
}
}
if (pk != k)
{
det = -det;
for (int j = 0; j < n; ++j)
{
float t = mat[k * n + j];
mat[k * n + j] = mat[pk * n + j];
mat[pk * n + j] = t;
}
}
float s = mat[k * n + k];
det *= s;
s = 1.0f / s;
for (int i = k + 1; i < n; ++i)
{
mat[i * n + k] *= s;
for (int j = k + 1; j < n; ++j)
{
mat[i * n + j] -= mat[i * n + k] * mat[k * n + j];
}
}
}
det *= mat[n * n - 1];
return det;
}
static void threadBarrier()
{
pthread_mutex_lock(&ThreadMutex);
++BarrierCount;
if (BarrierCount <= ThreadCount)
{
pthread_cond_wait(&ThreadCond, &ThreadMutex);
}
else
{
pthread_cond_broadcast(&ThreadCond);
BarrierCount = 0;
}
pthread_mutex_unlock(&ThreadMutex);
}
static void* threadFunc(void* pData)
{
int* pThreadIdx = static_cast<int*>(pData);
int threadIdx = *pThreadIdx;
float* mat = new float[NMax * NMax];
for (int n = 1; n <= NMax; ++n)
{
uint32_t descrRange(1u << (2 * n - 1));
float maxDet = 0.0f;
uint32_t maxDescr = 0;
uint32_t descrInc = threadIdx;
for (uint32_t descrBase = 0;
descrBase + descrInc < descrRange;
descrBase += ThreadCount)
{
uint32_t descr = descrBase + descrInc;
descrInc = (descrInc + 1) % ThreadCount;
if (reverse(n, descr) > descr)
{
continue;
}
buildMat(n, mat, descr);
float det = determinant(n, mat);
if (det > maxDet)
{
maxDet = det;
maxDescr = descr;
}
}
MaxDetA[threadIdx] = maxDet;
MaxDescrA[threadIdx] = maxDescr;
threadBarrier();
// Let main thread output results.
threadBarrier();
}
delete[] mat;
return 0;
}
static void printMat(int n, float mat[])
{
for (int iRow = 0; iRow < n; ++iRow)
{
for (int iCol = 0; iCol < n; ++iCol)
{
std::cout << " " << mat[iRow * n + iCol];
}
std::cout << std::endl;
}
std::cout << std::endl;
}
int main(int argc, char* argv[])
{
if (argc > 1)
{
NMax = atoi(argv[1]);
if (NMax > 16)
{
NMax = 16;
}
}
if (argc > 2)
{
ThreadCount = atoi(argv[2]);
}
MaxDetA = new float[ThreadCount];
MaxDescrA = new uint32_t[ThreadCount];
pthread_mutex_init(&ThreadMutex, 0);
pthread_cond_init(&ThreadCond, 0);
int* threadIdxA = new int[ThreadCount];
pthread_t* threadA = new pthread_t[ThreadCount];
for (int iThread = 0; iThread < ThreadCount; ++iThread)
{
threadIdxA[iThread] = iThread;
pthread_create(threadA + iThread, 0, threadFunc, threadIdxA + iThread);
}
float* mat = new float[NMax * NMax];
for (int n = 1; n <= NMax; ++n)
{
threadBarrier();
float maxDet = 0.0f;
uint32_t maxDescr = 0;
for (int iThread = 0; iThread < ThreadCount; ++iThread)
{
if (MaxDetA[iThread] > maxDet)
{
maxDet = MaxDetA[iThread];
maxDescr = MaxDescrA[iThread];
}
}
std::cout << "n = " << n << " det = " << maxDet << std::endl;
buildMat(n, mat, maxDescr);
printMat(n, mat);
threadBarrier();
}
delete[] mat;
delete[] MaxDetA;
delete[] MaxDescrA;
delete[] threadIdxA;
delete[] threadA;
return 0;
}