Maŝinlernado-sistemoj por bildsintezo kaj bruoredukto en noktaj fotoj

Stability AI publikigis pretajn modelojn por la Stable Diffusion maŝinlernsistemo, kapabla sintezi kaj modifi bildojn bazitajn sur teksta priskribo en natura lingvo. Modeloj estas licencitaj laŭ permesilo Creative ML OpenRAIL-M por komerca uzo. Por trejni la sistemon, aro de 4000 GPU-oj NVIDIA A100 Ezra-1 kaj kolekto LAION-5B, inkluzive de 5.85 miliardoj da bildoj kun tekstaj priskriboj, estis uzataj. Antaŭe, la kodo por iloj por trejni neŭralan reton kaj generi bildojn estis malfermfonta sub la MIT-licenco.

La havebleco de preta modelo kaj sufiĉe modestaj sistemaj postuloj, kiuj permesas komenci eksperimentojn sur komputilo kun normaj GPU-oj, kaŭzis la aperon de kelkaj rilataj projektoj:

  • tekst-inversio (kodo) - aldonaĵo, kiu ebligas al vi sintezi bildojn kun difinita karaktero, objekto aŭ stilo. En la origina Stable Diffusion, la objektoj en la sintezitaj bildoj estas hazardaj kaj nekontroleblaj. La proponita aldonaĵo permesas vin aldoni viajn proprajn vidajn objektojn, ligi ilin al ŝlosilvortoj kaj uzi ilin en sintezo.

    Ekzemple, en regula Stable Diffusion vi povas peti la sistemon generi bildon kun "kato en boato". Aldone, vi povas klarigi la karakterizaĵojn de la kato kaj la boato, sed estas neantaŭvidebla, kiu kato kaj boato estos sintezitaj. Teksta inversio permesas vin trejni la sistemon sur bildo de via kato aŭ boato kaj sintezi la bildon kun specifa kato aŭ boato. Simile, ĝi ankaŭ povas anstataŭigi bildajn elementojn per certaj objektoj, agordi ekzemplon de vida stilo por sintezo kaj specifi konceptojn (ekzemple, el la tuta vario de kuracistoj, vi povas uzi pli precizan kaj altkvalitan elekton. en la dezirata stilo).

    Maŝinlernado-sistemoj por bildsintezo kaj bruoredukto en noktaj fotoj

  • stable-diffusion-animation - kreado de viglaj (movaj) bildoj bazitaj sur interpolado inter bildoj generitaj en Stable Diffusion.
  • stable_diffusion.openvino (kodo) - haveno de Stable Diffusion, kiu uzas nur la CPU por kalkuloj, kiu permesas eksperimentadon sur sistemoj sen potencaj GPUoj. Postulas procesoron subtenata en la OpenVINO-biblioteko. Oficiale, OpenVINO provizas kromaĵojn por Intel-procesoroj kun AVX2, AVX-512, AVX512_BF16 kaj SSE-etendaĵoj, same kiel por Raspberry Pi 4 Model B, Apple Mac mini kaj NVIDIA Jetson Nano-tabuloj. Neoficiale, eblas uzi OpenVINO sur AMD Ryzen-procesoroj.
  • sdamd estas haveno por AMD GPUoj.
  • Komenca efektivigo de videosintezo.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - grafikaj interfacoj por generi bildojn per Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - retaj interfacoj por bildsintezo uzante Stable Diffusion.
  • Kromaĵoj por integri Stable Diffusion kun GIMP, Figma, Blender kaj Photoshop.

Aldone, ni povas noti la publikigon de Guglo de la kodo de la maŝinlernada sistemo RawNeRF (RAW Neural Radiance Fields), kiu ebligas, surbaze de datumoj de pluraj RAW-bildoj, plibonigi la kvaliton de tre bruaj bildoj prenitaj en mallumo kaj en mallumo. malbona lumigado. Krom forigi bruon, la iloj disvolvitaj de la projekto ebligas pliigi detalojn, forigi brilon, sintezi HDR kaj ŝanĝi la ĝeneralan lumigadon en fotoj, kaj ankaŭ rekrei la tridimensian pozicion de objektoj uzante plurajn fotojn el malsamaj anguloj, ŝanĝi la vidpunkton, manipuli fokuson kaj generi movajn bildojn.

Maŝinlernado-sistemoj por bildsintezo kaj bruoredukto en noktaj fotoj
Maŝinlernado-sistemoj por bildsintezo kaj bruoredukto en noktaj fotoj


fonto: opennet.ru

Aldoni komenton