Nouvel article : Photographie computationnelle

L'article original est publié sur le site Web Vastrik.ru et publié sur 3DNews avec la permission de l'auteur. Nous fournissons le texte intégral de l'article, à l'exception d'un grand nombre de liens - ils seront utiles à ceux qui s'intéressent sérieusement au sujet et souhaitent étudier plus en profondeur les aspects théoriques de la photographie informatique, mais pour un grand public, nous avons considéré ce matériel redondant.  

Aujourd’hui, aucune présentation de smartphone n’est complète sans lécher son appareil photo. Chaque mois, nous entendons parler du prochain succès des caméras mobiles : Google apprend au Pixel à photographier dans le noir, Huawei à zoomer comme des jumelles, Samsung introduit le lidar et Apple réalise les coins les plus arrondis du monde. Il existe peu d’endroits où l’innovation circule aussi rapidement de nos jours.

Dans le même temps, les miroirs semblent marquer le pas. Sony inonde chaque année tout le monde de nouvelles matrices, et les fabricants mettent paresseusement à jour le dernier chiffre de la version et continuent de se détendre et de fumer en marge. J'ai un reflex numérique à 3000 XNUMX $ sur mon bureau, mais quand je voyage, j'emporte mon iPhone. Pourquoi?

Comme le dit le classique, je suis allé en ligne avec cette question. Ils y discutent de certains « algorithmes » et « réseaux de neurones », sans avoir la moindre idée de la manière dont ils affectent exactement la photographie. Les journalistes lisent à haute voix le nombre de mégapixels, les blogueurs scient à l'unisson les déballages payants et les esthètes se barbouillent de « perception sensuelle de la palette de couleurs de la matrice ». Tout est comme d'habitude.

J'ai dû m'asseoir, passer la moitié de ma vie et tout comprendre moi-même. Dans cet article, je vais vous raconter ce que j'ai appris.

#Qu’est-ce que la photographie informatique ?

Partout, y compris sur Wikipédia, ils donnent à peu près cette définition : la photographie informatique est toute technique de capture et de traitement d'image qui utilise l'informatique numérique au lieu de transformations optiques. Tout y est bon, sauf que ça n'explique rien. Même l'autofocus s'y prête, mais la plénoptique, qui nous a déjà apporté bien des choses utiles, ne rentre pas. Le flou des définitions officielles semble laisser entendre que nous n’avons aucune idée de ce dont nous parlons.

Le pionnier de la photographie informatique, le professeur de Stanford Marc Levoy (qui est maintenant responsable de l'appareil photo chez Google Pixel) donne une autre définition : un ensemble de méthodes de visualisation informatique qui améliorent ou étendent les capacités de la photographie numérique, à l'aide desquelles une photographie ordinaire est obtenue. ne pouvait techniquement pas être pris avec cet appareil photo de manière traditionnelle. Dans l'article, j'adhère à cela.

Les smartphones étaient donc responsables de tout.

Les smartphones n’ont eu d’autre choix que de donner naissance à un nouveau type de photographie : la photographie informatique.

Leurs petites matrices bruyantes et leurs minuscules lentilles à ouverture lente, selon toutes les lois de la physique, n'auraient dû apporter que douleur et souffrance. Ils l'ont fait jusqu'à ce que leurs développeurs découvrent comment utiliser intelligemment leurs points forts pour surmonter leurs faiblesses : obturateurs électroniques rapides, processeurs et logiciels puissants.

Nouvel article : Photographie computationnelle

La plupart des recherches de haut niveau dans le domaine de la photographie informatique ont eu lieu entre 2005 et 2015, ce qui, en science, est considéré littéralement comme hier. À l’heure actuelle, sous nos yeux et dans nos poches, un nouveau domaine de connaissances et de technologies se développe qui n’a jamais existé auparavant.

La photographie computationnelle ne se limite pas aux selfies avec neuro-bokeh. La photographie récente d’un trou noir n’aurait pas été possible sans les techniques de photographie informatique. Pour prendre une telle photo avec un télescope ordinaire, il faudrait qu'elle ait la taille de la Terre. Cependant, en combinant les données de huit radiotélescopes situés à différents points de notre boule et en écrivant quelques scripts en Python, nous avons obtenu la première photographie au monde de l'horizon des événements. Bon aussi pour les selfies.

Nouvel article : Photographie computationnelle

#Début : traitement numérique

Imaginons que nous revenions en 2007. Notre mère est l'anarchie et nos photos sont des jeeps bruyantes de 0,6 mégapixels prises sur un skateboard. On a alors la première envie irrésistible de leur saupoudrer des presets afin de masquer la misère des matrices mobiles. Ne nous nions pas.

Nouvel article : Photographie computationnelle

#Matan et Instagram

Avec la sortie d’Instagram, tout le monde est devenu obsédé par les filtres. En tant que personne ayant procédé à l'ingénierie inverse des X-Pro II, Lo-Fi et Valencia, bien sûr à des fins de recherche, je me souviens encore qu'ils se composaient de trois composants :

  • Paramètres de couleur (Teinte, Saturation, Luminosité, Contraste, Niveaux, etc.) - de simples coefficients numériques, exactement comme tous les préréglages que les photographes utilisent depuis l'Antiquité.
  • Les Tone Mappings sont des vecteurs de valeurs, dont chacune nous dit : « La couleur rouge avec une teinte de 128 doit être transformée en une teinte de 240. »
  • Une superposition est une image translucide avec de la poussière, du grain, de la vignette et tout ce qui peut être placé dessus pour obtenir l'effet pas du tout banal d'un vieux film. N'était pas toujours présent.   

Les filtres modernes ne sont pas loin de ce trio, ils sont seulement devenus un peu plus complexes en mathématiques. Avec l'avènement des shaders matériels et d'OpenCL sur les smartphones, ils ont été rapidement réécrits pour le GPU, ce qui a été considéré comme extrêmement cool. Pour 2012, bien sûr. Aujourd'hui, n'importe quel étudiant peut faire la même chose en CSS, mais il n'aura toujours pas la chance d'obtenir son diplôme.

Cependant, les progrès des filtres ne se sont pas arrêtés aujourd'hui. Les gars de Dehanser, par exemple, sont doués pour utiliser des filtres non linéaires - au lieu du mappage de tons prolétarien, ils utilisent des transformations non linéaires plus complexes, ce qui, selon eux, ouvre beaucoup plus de possibilités.

Vous pouvez faire beaucoup de choses avec des transformations non linéaires, mais elles sont incroyablement complexes et nous, les humains, sommes incroyablement stupides. Dès qu’il s’agit de transformations non linéaires en science, nous préférons recourir aux méthodes numériques et fourrer les réseaux de neurones partout pour qu’ils nous écrivent des chefs-d’œuvre. C'était la même chose ici.

#Automatisation et rêves d’un bouton « chef-d’œuvre »

Une fois que tout le monde s’est habitué aux filtres, nous avons commencé à les intégrer directement dans les caméras. L'histoire cache quel fabricant a été le premier, mais juste pour comprendre depuis combien de temps - dans iOS 5.0, sorti en 2011, il existait déjà une API publique pour l'amélioration automatique des images. Seul Jobs sait combien de temps il a été utilisé avant son ouverture au public.

L'automatisation a fait la même chose que chacun de nous fait lors de l'ouverture d'une photo dans l'éditeur : elle a supprimé les espaces de lumière et d'ombre, ajouté de la saturation, supprimé les yeux rouges et fixé le teint. Les utilisateurs n'ont même pas réalisé que la « caméra considérablement améliorée » du nouveau smartphone n'était que le mérite de quelques nouveaux shaders. Il restait encore cinq ans avant la sortie de Google Pixel et le début du battage médiatique de la photographie informatique.

Nouvel article : Photographie computationnelle

Aujourd’hui, la bataille pour le bouton « chef-d’œuvre » s’est déplacée vers le domaine de l’apprentissage automatique. Après avoir suffisamment joué avec le mappage de tons, tout le monde s'est précipité pour entraîner les CNN et les GAN à déplacer les curseurs à la place de l'utilisateur. En d’autres termes, à partir de l’image d’entrée, déterminez un ensemble de paramètres optimaux qui rapprocheraient cette image d’une certaine compréhension subjective de la « bonne photographie ». Implémenté dans le même Pixelmator Pro et d'autres éditeurs. Comme vous pouvez le deviner, cela ne fonctionne pas très bien et pas toujours. 

#Le stacking, c’est 90% du succès des caméras mobiles

La véritable photographie informatique a commencé par l’empilage, en superposant plusieurs photographies les unes sur les autres. Ce n'est pas un problème pour un smartphone de cliquer sur une douzaine d'images en une demi-seconde. Leurs appareils photo n'ont pas de pièces mécaniques lentes : l'ouverture est fixe et au lieu d'un rideau mobile, il y a un obturateur électronique. Le processeur commande simplement à la matrice combien de microsecondes elle doit capturer les photons sauvages, et il lit le résultat.

Techniquement, le téléphone peut prendre des photos à la vitesse vidéo et des vidéos à la résolution photo, mais tout dépend de la vitesse du bus et du processeur. C'est pourquoi ils fixent toujours des limites aux programmes.

Le jalonnement lui-même existe depuis longtemps. Même les grands-pères installaient des plugins sur Photoshop 7.0 pour assembler plusieurs photographies dans un HDR accrocheur ou assembler un panorama de 18000 600 × XNUMX pixels et... en fait, personne n'a jamais compris quoi en faire ensuite. C'était dommage que les temps soient riches et sauvages.

Maintenant, nous sommes devenus adultes et appelons cela « photographie epsilon » - lorsque, en modifiant l'un des paramètres de l'appareil photo (exposition, mise au point, position) et en assemblant les images résultantes, nous obtenons quelque chose qui ne pourrait pas être capturé dans une seule image. Mais c'est un terme pour les théoriciens, dans la pratique, un autre nom a pris racine : le jalonnement. Aujourd’hui, en effet, 90 % de toutes les innovations en matière de caméras mobiles reposent sur cette technologie.

Nouvel article : Photographie computationnelle

Quelque chose auquel beaucoup de gens ne pensent pas, mais qui est important pour comprendre toute la photographie mobile et informatique : l'appareil photo d'un smartphone moderne commence à prendre des photos dès que vous ouvrez son application. Ce qui est logique, car elle a besoin d'une manière ou d'une autre de transférer l'image sur l'écran. Cependant, en plus de l'écran, il enregistre les images haute résolution dans son propre tampon de boucle, où il les stocke pendant quelques secondes supplémentaires.

Lorsque vous appuyez sur le bouton « prendre une photo », la photo a déjà été prise, l'appareil photo prend simplement la dernière photo du tampon.

C’est ainsi que fonctionne n’importe quelle caméra mobile aujourd’hui. Au moins dans tous les produits phares, pas des poubelles. La mise en mémoire tampon vous permet d'obtenir non seulement un décalage d'obturation nul, dont les photographes rêvent depuis longtemps, mais même un résultat négatif - lorsque vous appuyez sur un bouton, le smartphone regarde dans le passé, décharge les 5 à 10 dernières photos du tampon et commence à analyser frénétiquement et collez-les. Plus besoin d'attendre que le téléphone clique sur les images pour le HDR ou le mode nuit : il suffit de les retirer du tampon, l'utilisateur ne le saura même pas.

Nouvel article : Photographie computationnelle

À propos, c'est grâce au délai d'obturation négatif que Live Photo est implémenté dans les iPhones, et HTC avait quelque chose de similaire en 2013 sous le nom étrange de Zoe.

#Empilement d'exposition - HDR et lutte contre les changements de luminosité

Nouvel article : Photographie computationnelle

La question de savoir si les capteurs d’appareil photo sont capables de capturer toute la gamme de luminosité accessible à nos yeux est un vieux sujet de débat brûlant. Certains disent non, car l'œil est capable de voir jusqu'à 25 diaphragmes, alors que même à partir d'une matrice plein format supérieure, vous pouvez en obtenir un maximum de 14. D'autres qualifient la comparaison d'incorrecte, car le cerveau aide l'œil en ajustant automatiquement la pupille et complétant l'image avec ses réseaux neuronaux, et l'instant La plage dynamique de l'œil n'est en réalité que de 10 à 14 diaphragmes. Laissons ce débat aux meilleurs penseurs d’Internet.

Le fait demeure : lorsque vous photographiez des amis contre un ciel lumineux sans HDR sur n'importe quelle caméra mobile, vous obtenez soit un ciel normal et les visages noirs de vos amis, soit des amis bien dessinés, mais un ciel brûlé à mort.

La solution a été inventée depuis longtemps : étendre la plage de luminosité à l'aide du HDR (High Dynamic Range). Vous devez prendre plusieurs images à différentes vitesses d'obturation et les assembler. Pour que l’un soit « normal », le deuxième est plus clair, le troisième est plus foncé. Nous prenons les endroits sombres d'un cadre clair, comblons les surexpositions d'un cadre sombre - profitons. Il ne reste plus qu'à résoudre le problème du bracketing automatique - dans quelle mesure décaler l'exposition de chaque image pour ne pas en faire trop, mais désormais, un étudiant de deuxième année dans une université technique peut déterminer la luminosité moyenne d'une image.

Nouvel article : Photographie computationnelle

Sur les derniers iPhone, Pixel et Galaxy, le mode HDR est généralement activé automatiquement lorsqu'un simple algorithme à l'intérieur de l'appareil photo détermine que vous photographiez quelque chose avec du contraste par une journée ensoleillée. Vous pouvez même remarquer comment le téléphone bascule le mode d'enregistrement sur le tampon afin de sauvegarder les images décalées en exposition - les fps dans l'appareil photo diminuent et l'image elle-même devient plus juteuse. Le moment de commutation est clairement visible sur mon iPhone X lorsque je filme en extérieur. Regardez également de plus près votre smartphone la prochaine fois.

L'inconvénient du HDR avec bracketing d'exposition est son impuissance impénétrable en cas de mauvais éclairage. Même avec la lumière d'une lampe de pièce, les cadres s'avèrent si sombres que l'ordinateur ne peut pas les aligner et les assembler. Pour résoudre le problème de la lumière, Google a présenté en 2013 une approche différente du HDR dans le smartphone Nexus alors lancé. Il a utilisé le time stacking.

#Empilement temporel - simulation d'exposition longue et time lapse

Nouvel article : Photographie computationnelle

L'empilement temporel vous permet de créer une exposition longue en utilisant une série de poses courtes. Les pionniers étaient fans de photographier des traînées d'étoiles dans le ciel nocturne, et trouvaient gênant d'ouvrir l'obturateur pendant deux heures d'affilée. Il était si difficile de calculer tous les réglages à l'avance, et la moindre secousse ruinerait tout le cadre. Ils ont décidé d'ouvrir l'obturateur seulement quelques minutes, mais plusieurs fois, puis sont rentrés chez eux et ont collé les images résultantes dans Photoshop.

Nouvel article : Photographie computationnelle

Il s'avère que l'appareil photo n'a jamais réellement filmé à une vitesse d'obturation longue, mais nous avons eu pour effet de la simuler en additionnant plusieurs images prises d'affilée. Il existe depuis longtemps de nombreuses applications écrites pour les smartphones qui utilisent cette astuce, mais elles ne sont pas toutes nécessaires puisque la fonctionnalité a été ajoutée à presque tous les appareils photo standards. Aujourd’hui, même un iPhone peut facilement assembler une longue exposition à partir d’une Live Photo.

Nouvel article : Photographie computationnelle

Revenons à Google avec son HDR nocturne. Il s’est avéré qu’en utilisant le bracketing temporel, vous pouvez mettre en œuvre un bon HDR dans l’obscurité. La technologie est apparue pour la première fois dans le Nexus 5 et s'appelait HDR+. Le reste des téléphones Android l'ont reçu comme en cadeau. La technologie est toujours aussi populaire qu’elle est même vantée lors de la présentation des derniers Pixel.

HDR+ fonctionne assez simplement : après avoir déterminé que vous photographiez dans l'obscurité, l'appareil photo décharge les 8 à 15 dernières photos RAW du tampon afin de les superposer les unes sur les autres. Ainsi, l'algorithme collecte plus d'informations sur les zones sombres du cadre pour minimiser le bruit - des pixels pour lesquels, pour une raison quelconque, la caméra n'a pas pu collecter toutes les informations et s'est trompée.

C’est comme si vous ne saviez pas à quoi ressemble un capybara et que vous demandiez à cinq personnes de le décrire, leurs histoires seraient à peu près les mêmes, mais chacune mentionnerait un détail unique. De cette façon, vous rassembleriez plus d’informations que de simplement en demander une. C'est la même chose avec les pixels.

L'ajout d'images prises à partir d'un point donne le même effet de fausse exposition longue qu'avec les étoiles ci-dessus. L'exposition de dizaines d'images est résumée, les erreurs dans l'une sont minimisées dans les autres. Imaginez combien il vous faudrait cliquer sur l'obturateur du reflex numérique à chaque fois pour y parvenir.

Nouvel article : Photographie computationnelle

Il ne restait plus qu'à résoudre le problème de la correction automatique des couleurs : les images prises dans l'obscurité s'avèrent généralement jaunes ou vertes, et nous voulons en quelque sorte la richesse de la lumière du jour. Dans les premières versions de HDR+, ce problème était résolu en modifiant simplement les paramètres, comme dans les filtres à la Instagram. Ils ont ensuite fait appel aux réseaux de neurones pour les aider.

C'est ainsi qu'est apparu Night Sight - la technologie de « photographie de nuit » dans les Pixel 2 et 3. Dans la description, ils disent : « Des techniques d'apprentissage automatique basées sur HDR+, qui font fonctionner Night Sight ». Il s’agit essentiellement de l’automatisation de l’étape de correction des couleurs. La machine a été entraînée sur un ensemble de données de photos « avant » et « après » afin d’en créer une belle à partir de n’importe quel ensemble de photos sombres et tordues.

Nouvel article : Photographie computationnelle

À propos, l’ensemble de données a été rendu public. Peut-être que les gars d'Apple le prendront et apprendront enfin à leurs pelles en verre à prendre des photos correctement dans le noir.

De plus, Night Sight utilise le calcul du vecteur de mouvement des objets dans le cadre pour normaliser le flou qui se produira certainement avec une vitesse d'obturation longue. Ainsi, le smartphone peut prélever des pièces transparentes sur d'autres cadres et les coller.

#Empilement de mouvements - panorama, superzoom et réduction du bruit

Nouvel article : Photographie computationnelle

Panorama est un divertissement populaire auprès des habitants des zones rurales. L'histoire ne connaît pas encore de cas dans lesquels une photo de saucisse intéresserait quelqu'un d'autre que son auteur, mais elle ne peut être ignorée - pour beaucoup, c'est là que l'empilement a commencé.

Nouvel article : Photographie computationnelle

La première façon utile d’utiliser un panorama est d’obtenir une photographie d’une résolution supérieure à celle que permet la matrice de l’appareil photo en assemblant plusieurs images. Les photographes utilisent depuis longtemps différents logiciels pour les photographies dites de super-résolution, lorsque des photographies légèrement décalées semblent se compléter entre les pixels. De cette façon, vous pouvez obtenir une image d'au moins des centaines de gigapixels, ce qui est très utile si vous devez l'imprimer sur une affiche publicitaire de la taille d'une maison.

Nouvel article : Photographie computationnelle

Une autre approche plus intéressante est le Pixel Shifting. Certains appareils photo sans miroir comme Sony et Olympus ont commencé à le prendre en charge en 2014, mais ils ont encore dû coller le résultat à la main. Innovations typiques des gros appareils photo.

Les smartphones ont réussi ici pour une drôle de raison : lorsque vous prenez une photo, vos mains tremblent. Ce problème apparent a constitué la base de la mise en œuvre de la super résolution native sur les smartphones.

Pour comprendre comment cela fonctionne, vous devez vous rappeler comment est structurée la matrice de n’importe quelle caméra. Chacun de ses pixels (photodiode) est capable d'enregistrer uniquement l'intensité de la lumière, c'est-à-dire le nombre de photons entrants. Cependant, un pixel ne peut pas mesurer sa couleur (longueur d’onde). Pour obtenir une image RVB, nous avons également dû ajouter des béquilles ici - recouvrir toute la matrice d'une grille de morceaux de verre multicolores. Son implémentation la plus populaire s'appelle le filtre Bayer et est utilisée aujourd'hui dans la plupart des matrices. Cela ressemble à l'image ci-dessous.

Nouvel article : Photographie computationnelle

Il s'avère que chaque pixel de la matrice n'attrape que la composante R, G ou B, car les photons restants sont impitoyablement réfléchis par le filtre Bayer. Il reconnaît les composants manquants en faisant la moyenne sans détour des valeurs des pixels voisins.

Il y a plus de cellules vertes dans le filtre Bayer - cela a été fait par analogie avec l'œil humain. Il s'avère que sur 50 millions de pixels sur la matrice, le vert en capturera 25 millions, le rouge et le bleu - 12,5 millions chacun. Le reste sera moyenné - ce processus est appelé débayérisation ou dématriçage, et c'est une béquille tellement drôle sur sur lequel tout repose.

Nouvel article : Photographie computationnelle

En fait, chaque matrice possède son propre algorithme de dématriçage breveté, mais pour les besoins de cette histoire, nous le négligerons.

D'autres types de matrices (telles que Foveon) n'ont pas encore fait leur chemin. Bien que certains fabricants tentent d'utiliser des capteurs sans filtre Bayer pour améliorer la netteté et la plage dynamique.

Lorsqu’il y a peu de lumière ou que les détails d’un objet sont très petits, nous perdons beaucoup d’informations car le filtre Bayer coupe de manière flagrante les photons dont la longueur d’onde est indésirable. C'est pourquoi ils ont imaginé Pixel Shifting : décaler la matrice de 1 pixel de haut en bas à droite et à gauche pour les capturer tous. Dans ce cas, la photo ne s'avère pas 4 fois plus grande, comme cela peut paraître, le processeur utilise simplement ces données pour enregistrer plus précisément la valeur de chaque pixel. Il ne fait pas la moyenne sur ses voisins, pour ainsi dire, mais sur quatre valeurs de lui-même.

Nouvel article : Photographie computationnelle

Le fait de serrer la main lors de la prise de photos au téléphone fait de ce processus une conséquence naturelle. Dans les dernières versions de Google Pixel, cette chose est implémentée et s'active chaque fois que vous utilisez le zoom sur le téléphone - elle s'appelle Super Res Zoom (oui, j'aime aussi leur dénomination impitoyable). Les Chinois l'ont également copié dans leurs laophones, même si cela s'est avéré un peu pire.

La superposition de photographies légèrement décalées les unes sur les autres vous permet de collecter plus d'informations sur la couleur de chaque pixel, ce qui signifie réduire le bruit, augmenter la netteté et augmenter la résolution sans augmenter le nombre physique de mégapixels de la matrice. Les produits phares d'Android modernes le font automatiquement, sans même que leurs utilisateurs y pensent.

#Focus stacking - n'importe quelle profondeur de champ et recentrage en post-production

Nouvel article : Photographie computationnelle

La méthode vient de la macrophotographie, où la faible profondeur de champ a toujours été un problème. Pour que l'objet entier soit mis au point, vous deviez prendre plusieurs images avec la mise au point en se déplaçant d'avant en arrière, puis les assembler en une seule nette. La même méthode était souvent utilisée par les photographes paysagistes, rendant le premier plan et l’arrière-plan aussi nets que la diarrhée.

Nouvel article : Photographie computationnelle

Tout cela a également migré vers les smartphones, mais sans trop de battage médiatique. En 2013, le Nokia Lumia 1020 avec « Refocus App » est sorti, et en 2014, le Samsung Galaxy S5 avec le mode « Selective Focus ». Ils ont travaillé selon le même schéma : en appuyant sur un bouton, ils ont rapidement pris 3 photographies - une avec une mise au point « normale », la seconde avec la mise au point décalée vers l'avant et la troisième avec la mise au point décalée vers l'arrière. Le programme a aligné les images et vous a permis d'en sélectionner une, ce qui a été présenté comme un « véritable » contrôle de la mise au point en post-production.

Il n'y a pas eu de traitement supplémentaire, car même ce simple hack a suffi à enfoncer un autre clou dans le couvercle de Lytro et de ses pairs avec leur recentrage honnête. Au fait, parlons-en (maître de transition 80 lvl).

#Matrices informatiques - champs lumineux et plénoptique

Comme nous l'avons compris plus haut, nos matrices sont une horreur sur des béquilles. Nous venons juste de nous y habituer et essayons de vivre avec. Leur structure a peu changé depuis la nuit des temps. Nous avons seulement amélioré le processus technique : nous avons réduit la distance entre les pixels, lutté contre les bruits d'interférence et ajouté des pixels spéciaux pour l'autofocus à détection de phase. Mais si vous prenez même le reflex numérique le plus cher et essayez de photographier un chat qui court avec dans un éclairage ambiant, le chat, c'est un euphémisme, gagnera.

Nouvel article : Photographie computationnelle

Cela fait longtemps que nous essayons d'inventer quelque chose de mieux. De nombreuses tentatives et recherches dans ce domaine sont recherchées sur Google pour « capteur informatique » ou « capteur non-bayer », et même l'exemple Pixel Shifting ci-dessus peut être attribué à des tentatives d'amélioration des matrices à l'aide de calculs. Cependant, les histoires les plus prometteuses des vingt dernières années nous sont venues précisément du monde des caméras dites plénoptiques.

Pour que vous ne vous endormiez pas à cause de l’anticipation de mots complexes imminents, je vous dirai que l’appareil photo du dernier Google Pixel est juste « légèrement » plénoptique. Juste deux pixels, mais même cela lui permet de calculer la profondeur optique correcte du cadre même sans deuxième appareil photo, comme tout le monde.

La plénoptique est une arme puissante qui n'a pas encore tiré. Voici un lien vers l'un de mes récents préférés. articles sur les capacités des caméras plénoptiques et notre avenir avec elles, où j'ai emprunté les exemples.

#

Caméra plénoptique - bientôt disponible

Inventé en 1994, collecté à Stanford en 2004. Le premier appareil photo grand public, Lytro, est sorti en 2012. L’industrie de la réalité virtuelle expérimente désormais activement des technologies similaires.

Une caméra plénoptique diffère d'une caméra conventionnelle par une seule modification : sa matrice est recouverte d'une grille de lentilles, dont chacune couvre plusieurs pixels réels. Quelque chose comme ça:

Nouvel article : Photographie computationnelle

Si vous calculez correctement la distance entre la grille et la matrice et la taille de l'ouverture, l'image finale aura des amas clairs de pixels - des sortes de mini-versions de l'image originale.

Il s'avère que si vous prenez, disons, un pixel central de chaque groupe et collez l'image ensemble uniquement en les utilisant, elle ne sera pas différente de celle prise avec un appareil photo ordinaire. Oui, nous avons un peu perdu en résolution, mais nous demanderons simplement à Sony d'ajouter plus de mégapixels dans les nouvelles matrices.

Nouvel article : Photographie computationnelle

Le plaisir ne fait que commencer. si vous prenez un autre pixel de chaque groupe et assemblez à nouveau l'image, vous obtiendrez à nouveau une photo normale, comme si elle avait été prise avec un décalage d'un pixel. Ainsi, en disposant de clusters de 10 × 10 pixels, nous obtiendrons 100 images de l'objet à partir de points « légèrement » différents.

Nouvel article : Photographie computationnelle

Une taille de cluster plus grande signifie plus d’images, mais une résolution plus faible. Dans le monde des smartphones dotés de matrices de 41 mégapixels, même si l'on peut négliger un peu la résolution, il y a une limite à tout. Vous devez maintenir l’équilibre.

Bon, nous avons assemblé une caméra plénoptique, alors qu'est-ce que ça nous donne ?

Un recentrage honnête

La fonctionnalité dont tous les journalistes parlaient dans les articles sur Lytro était la possibilité d'ajuster honnêtement la mise au point en post-production. Par équitable, nous entendons que nous n'utilisons aucun algorithme de suppression du flou, mais que nous utilisons exclusivement les pixels disponibles, en les sélectionnant ou en les faisant la moyenne des clusters dans l'ordre requis.

La photographie RAW à partir d'un appareil photo plénoptique semble étrange. Pour en sortir la jeep pointue habituelle, vous devez d'abord l'assembler. Pour ce faire, vous devez sélectionner chaque pixel de la jeep dans l'un des clusters RAW. Selon la façon dont nous les choisissons, le résultat changera.

Par exemple, plus le cluster est éloigné du point d'incidence du faisceau d'origine, plus ce faisceau est flou. Parce que l'optique. Pour obtenir une image décalée, il suffit de sélectionner les pixels à la distance souhaitée de l'original - soit plus près, soit plus loin.

Nouvel article : Photographie computationnelle

 

Il était plus difficile de se concentrer sur soi-même - purement physiquement, il y avait moins de pixels de ce type dans les clusters. Au début, les développeurs ne voulaient même pas donner à l’utilisateur la possibilité de faire la mise au point avec ses mains : l’appareil photo lui-même en décidait par logiciel. Les utilisateurs n’aimaient pas cet avenir, ils ont donc ajouté une fonctionnalité dans le firmware ultérieur appelée « mode créatif », mais l’ont rendu très limité pour cette raison précise.

Carte de profondeur et 3D à partir d'une seule caméra   

L'une des opérations les plus simples en plénoptique consiste à obtenir une carte de profondeur. Pour ce faire, il vous suffit de collecter deux images différentes et de calculer à quel point les objets qu'elles contiennent sont décalés. Plus de décalage signifie plus loin de la caméra.

Google a récemment acheté et tué Lytro, mais a utilisé sa technologie pour sa VR et... pour la caméra Pixel. À partir du Pixel 2, la caméra est devenue pour la première fois « légèrement » plénoptique, mais avec des groupes de seulement deux pixels. Cela a donné à Google la possibilité de ne pas installer une deuxième caméra, comme tous les autres, mais de calculer la carte de profondeur uniquement à partir d'une seule photo.

Nouvel article : Photographie computationnelle

Nouvel article : Photographie computationnelle

La carte de profondeur est construite à l'aide de deux images décalées d'un sous-pixel. C'est largement suffisant pour calculer une carte de profondeur binaire et séparer le premier plan de l'arrière-plan et flouter ce dernier dans le bokeh désormais à la mode. Le résultat de cette superposition est également atténué et « amélioré » par les réseaux de neurones entraînés à améliorer les cartes de profondeur (et non à les rendre floues, comme beaucoup le pensent).

Nouvel article : Photographie computationnelle

Le truc, c'est que nous avons accès à la plénoptique dans les smartphones presque gratuitement. Nous avons déjà mis des lentilles sur ces minuscules matrices afin d'augmenter d'une manière ou d'une autre le flux lumineux. Dans le prochain Pixel, Google prévoit d'aller plus loin et de recouvrir quatre photodiodes d'un objectif.

Source: 3dnews.ru

Ajouter un commentaire