Manipulação de múltiplos arquivos grandes
Bom dia!
Tenho uma tarefa a realizar, e queria sugestões de como implementar (não a codificação em si, mas como realizar). Um ponto de partida!
Tenho um arquivo X com todas simulações de configurações possíveis de valores para um sistema funcionar, bem ou mal. Arquivo com mais de 20 milhões de linhas. X tem mais de 20 variáveis distintas.
Em um arquivo Y tem todas configurações confirmadas em simulador que geram erro, parada ou desperdício de insumos. Y tem entre 6 e 8 variáveis por linha. Temos mais de 20 mil linhas em Y.
A idéia é filtrar todas linhas de X de forma que em um arquivo de saída só saiam as linhas validadas por todas regras de Y.
Um complicador é o volume de linhas. Se cada linha do arquivo X que não passasse por uma das regras de Y não fosse mais analisada, aceleraria em muito tempo a execução do script. Ou seja, talvez gerar um arquivo de saída temporário, e na próxima execução o arquivo X a ser analisado seria o temporário, em vez do original.
Por último, pergunto se alguém conhece algum serviço na nuvem onde eu possa rodar esse script mais rápido em um computador de altíssima performance?
Discussão (1)
Carregando comentários...