30 research outputs found

    Contrôle en ligne des systèmes multiprocesseurs hétérogènes embarqués : élaboration et validation d’une architecture

    No full text
    Pas de résumé disponible.Les futurs systèmes embarqués auront besoin d’intégrer de plus en plus de services. Mais surtout, ils devront adapter dynamiquement leur structure à leur environnement et aux besoins des utilisateurs. L’augmentation des performances de ces dispositifs a longtemps été induite par l’amélioration des techniques d’extraction et d’exploitation du parallélisme d’instructions. Mais la complexité de leur mise en œuvre et la limitation de ce parallélisme engendrent des architectures peu efficaces. Leurs performances restent insuffisantes aux regards de nos besoins applicatifs.Une solution pour continuer à améliorer les performances consiste à exploiter le parallélisme de tâches et à multiplier les ressources de calcul intégrées sur une même puce. Néanmoins, l’étude de l’ensemble des solutions matérielles existantes montre qu’aucune d’entre-elles n’est en mesure de répondre à nos besoins particuliers. En effet, notre architecture doit respecter des exigences liées aux systèmes embarqués et donc disposer d’une bonne efficacité énergétique et transistor.Ainsi, nous proposons dans cette thèse une architecture multiprocesseur asymétrique appelée SCMP-LC. Elle est caractérisée par une séparation explicite du contrôle et du calcul. Par ailleurs, elle offre des mécanismes de préemption et de migration efficaces, grâce à l’utilisation de mémoires physiquement distribuées et logiquement partagées. Notre modèle d’exécution consiste à exécuter des tâches indépendantes sur des ressources de calcul hétérogènes.Dans cette architecture, la partie dédiée au contrôle centralise dorénavant toute la gestion de l’exécution des tâches. Par conséquent, le déterminisme et la réactivité du contrôle ont un rôle déterminant sur les performances du système. L’étude des solutions de contrôle pour les architectures multiprocesseurs montre que seule une approche matérielle est en mesure de répondre à toutes ces exigences.C’est pourquoi nous avons élaboré une architecture dénommée OSoC, capable de supporter la plupart des services habituellement offerts par un système d’exploitation temps-réel. Elle permet la gestion dynamique de multiples applications concurrentes, des dépendances de données et de contrôle, ainsi que l’ordonnancement de tâches temps-réel, non-temps-réel, périodiques et non-périodiques. De plus, elle maîtrise la préemption et la migration des tâches, ainsi que la consommation d’énergie du système.Les résultats de synthèse et de simulation confirment l’intérêt de notre solution matérielle. Le temps entre chaque nouvel ordonnancement est de 16μs pour une surface de 2,3mm2 (technologie ST 130nm). Ceci permet d’atteindre un taux d’occupation des ressources de calcul supérieur à 85% lors de l’exécution d’un encodeur MPEG-4 AVC. La comparaison avec le noyau temps-réel μCOS-II et une approche équivalente logicielle montrent un gain significatif en terme de surface, de consommation d’énergie et de performance

    SCMP Architecture: An Asymmetric Multiprocessor System-on-Chip for Dynamic Applications

    No full text
    International audienceFuture systems will have to support multiple and concurrent dynamic compute-intensive applications, while respecting real-time and energy consumption constraints. Within this framework, this paper presents an architecture, named SCMP. This asymmetric multiprocessor can support dynamic migration and preemption of tasks, thanks to a concurrent control of tasks, while offering a specific data sharing solution. Its tasks are controlled by a dedicated HW-RTOS that allows online scheduling of independent real-time and nonreal-time tasks. By incorporating a connected component labeling algorithm into this platform, we have been able to measure its benefits for real-time and dynamic image processing

    Embedded AI performances of Nvidia's Jetson Orin SoC series

    No full text
    International audienceEnergy efficiency is key in many embedded systems that must achieve best performances for a given power budget. Additionally, new neural network-based applications combine multiple processing needs. For such applications, heterogeneous system-on-chips, such as the Nvidia Jetson Orin series, include different computing capabilities to propose new interesting latency and power consumption trade-offs. But, choosing the suitable Jetson module for a given application's need can be confusing since these modules have many operating ranges and several accelerators. In this paper, we evaluate through emulation the embedded performances of popular neural networks to provide a first hands-on insight of all Jetson Orin modules

    A low complex scheduling algorithm for multi-processor system-on-chip

    No full text
    Multi-Processor System-on-Chip (MPSoC) represents today the main trend for future architectural designs. Nonetheless, the scheduling of tasks on these distributed systems is a major problem since it has a central impact on global performances. This problem is known to be NPcomplete and only approximate methods can be used. In the past, to approach optimal results, many heuristics have been proposed. But their complexity continue to increase, without considering efficient HW implementations. The novel scheduling policy, introduced in this paper, finds an interesting trade off between performance and complexity. Our list scheduling heuristic, called LLD, can nearoptimally compute non-malleable tasks on multiple processing elements to minimize the schedule length with a low complexity. The comparison study achieved with already proposed algorithms shows that the LLD scheduling algorithm significantly overcomes the previous approaches in terms of processing element occupation as well as overall execution time.

    Exploration d'architectures de réseaux de neurones pour la segmentation sémantique d'images aériennes

    No full text
    International audienceLa segmentation sémantique d'images aériennes nécessite une extraction complexe d'informations contextuelles. Des Réseaux de Neurones (RdN) convolutifs spécialisés performants se développent pour répondre à ce besoin, mais dans un contexte embarqué, leur structure trop lourde est inadaptée pour une exécution sur cible contrainte en latence ou en consommation d'énergie. Nous proposons donc d'utiliser des méthodes de recherche automatique d'architectures neuronales (NAS) capable de prendre en compte ces contraintes embarquées. Nous démontrons que leur utilisation est possible et peut conduire à d'excellentes performances malgré une complexité réduite. Par exemple, comparé à DC-Swin, la méthode FastNAS atteint une mIoU similaire à 0,838 (-3%) pour une complexité calculatoire réduite de 88% (4,6 GMAC, Multiplication-Accumulations) pour le jeu de données Potsdam

    An Auto-Adaptative Reconfigurable Architecture for the Control

    No full text
    International audiencePrevious works have shown that reconfigurable architectures are particularly well-adapted for implementing regular processing applications. Nevertheless, they are inefficient for designing complex control systems. In order to solve this drawback, microprocessors are jointly used with reconfigurable devices. However, only regular, modular and recon-figurable architectures can easily take into account constant technology improvements, since they are based on the repetition of small units. This paper focuses on the self-adaptative features of a new reconfigurable architecture dedicated to the control from the application to the computation level. This reconfigurable device can itself adapt its resources to the application at run-time, and can exploit a high level of parallelism into an architecture called RAMPASS

    Prototypage Rapide d'un Décodeur Mpeg-4 Optimisé sur Architectures Hétérogènes Parallèles

    No full text
    National audienceL'objectif des travaux présentés est l'implantation d'applications Mpeg-4 optimisées pour plates-formes embarquées multiprocesseurs. Les résultats sont obtenus en utilisant une méthodologie de prototypage appelée AVS/SynDEx. Ce papier introduit une application de décodage Mpeg-4 distribuée où une partie système simplifiée est supportée par un PC standard, et le décodage vidéo par une carte multi-DSP, exécutée en parallèle grâce à la gestion globale de l'ordonnancement

    Approche hiérarchique pour la gestion dynamique des tâches et des communications dans les architectures massivement parallèles programmables

    No full text
    Les dispositifs embarqués deviennent multi usage tels que les téléphones portables. De plus, les applications sont de plus en plus complexes. C'est pourquoi le monde de l'embarqué nécessite de nos jours des processeurs puissants et flexibles permettant l'exécution d'applications dynamiques. Les monoprocesseurs ont atteint leur limite et ne peuvent plus fournir une puissance de calcul suffisant en respectant les contraintes de surface et de consommation. Les systèmes embarqués sont devenus multiprocesseurs afin de répondre à ces contraintes. Cette étude traite des communications dans un multiprocesseur massivement parallèle ainsi que de la gestion dynamique d'un grand nombre de tâches. Elle propose un modèle d'exécution ainsi qu'une architecture adaptée afin de répondre aux contraintes du monde de l'embarqué. L'architecture se compose de différents clusters de processeurs. Les applications sont définies à l'aide de graphes de tâches découpés en groupe. L'ensemble est placé dynamiquement dans l'architecture. Afin de répartir au mieux la charge de travail sur les clusters, un mécanisme de migration est en place. Comparé à une solution centralisée, les solutions hiérarchisées et distribuées permettent de paralléliser le contrôle sur chaque cluster ce qui augmente les performances. Cependant seule la solution hiérarchisée offre également une vue globale de l'architecture qui permet dynamiquement de répartir les tâches sur l'ensemble de l'architecture.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Hybrid Prototyping Methodology for Rapid System Validation in HW/SW Co-Design

    No full text
    International audienceAs the System-on-Chip (SoC) complexity increases, hardware/software co-design plays an important role to improve design productivity, reduce time to market, and optimize the overall results. Consequently, there is a high interest in providing rapid system validation in such a paradigm to achieve the aforementioned objectives. There exist in previous works proto-typing techniques related to the development phase. FPGA-based prototyping has the benefits of enabling HW/SW integration and system validation after the Register Transfer Level (RTL) implementation is available while virtual platforms provide capabilities to accelerate software development with higher level functional models, e.g. Transaction Level Modeling (TLM). In this paper, we propose a hybrid prototyping methodology which takes advantage of virtual and FPGA-based prototyping in a single framework. We aim to provide a rapid and flexible system validation solution for HW/SW co-design at various stages of development based on the availability of TLM and RTL implementations. The proposed methodology allows online and offline performance analysis and debugging for early feedback in HW/SW architecture exploration. This was evaluated in the experiments with a neural network processor as a case study
    corecore