"Tujuan kursus iki yaiku kanggo nyiapake sampeyan kanggo masa depan teknis sampeyan."
Sugeng rawuh, Habr. Elingi artikel sing apik tenan "Sampeyan lan karyamu" (+219, 2588 tetenger, 429k diwaca)?
Dadi Hamming (ya, ya, ngawasi lan mbenerake dhewe Kode Hamming) ana wutuh buku, ditulis adhedhasar ceramahe. We nerjemahake, amarga wong ngomong pikirane.
Iki minangka buku ora mung babagan IT, nanging uga buku babagan gaya mikir wong sing luar biasa. "Iku ora mung ngedongkrak saka pikiran positif; iku nggambarake kahanan sing nambah kesempatan kanggo nindakake karya gedhe.
Thanks kanggo Andrey Pakhomov kanggo terjemahan.
Teori Informasi dikembangake dening C. E. Shannon ing pungkasan taun 1940-an. Manajemen Bell Labs negesake manawa dheweke nyebat "Teori Komunikasi" amarga ... iki jeneng sing luwih akurat. Kanggo alasan sing jelas, jeneng "Teori Informasi" nduwe pengaruh sing luwih gedhe ing masarakat, mula Shannon milih, lan jeneng kasebut nganti saiki. Jeneng kasebut nuduhake manawa teori kasebut gegayutan karo informasi, sing ndadekake penting nalika kita pindhah luwih jero menyang jaman informasi. Ing bab iki, aku bakal ndemek sawetara kesimpulan utama saka teori iki, aku bakal nyedhiyani ora ketat, nanging bukti intuisi saka sawetara pranata individu saka teori iki, supaya sampeyan ngerti apa "Teori Informasi" bener, ngendi sampeyan bisa aplikasi iku. lan ing ngendi ora.
Kaping pisanan, apa "informasi"? Shannon padha karo informasi karo kahanan sing durung mesthi. Dheweke milih logaritma negatif saka kemungkinan kedadeyan minangka ukuran kuantitatif saka informasi sing ditampa nalika kedadeyan kanthi kemungkinan p. Contone, yen aku pitutur marang kowe yen cuaca ing Los Angeles pedhut, banjur p cedhak 1, sing pancene ora menehi akeh informasi. Nanging yen aku ngomong yen udan ing Monterey ing wulan Juni, bakal ana kahanan sing durung mesthi ing pesen kasebut lan bakal ngemot informasi liyane. Acara sing dipercaya ora ngemot informasi apa wae, amarga log 1 = 0.
Ayo ndeleng iki kanthi luwih rinci. Shannon percaya yen ukuran informasi kuantitatif kudu dadi fungsi terus-terusan saka kemungkinan acara p, lan kanggo acara independen kudu aditif - jumlah informasi sing dipikolehi minangka asil saka kedadeyan rong acara independen kudu padha karo jumlah informasi sing dipikolehi minangka asil saka kedadeyan acara bebarengan. Contone, asil saka muter dadu lan muter duwit receh biasane dianggep minangka acara sawijining. Ayo kita terjemahake ing ndhuwur menyang basa matematika. Yen I (p) minangka jumlah informasi sing ana ing acara kanthi probabilitas p, mula kanggo acara gabungan sing dumadi saka rong acara bebas x kanthi probabilitas p1 lan y kanthi probabilitas p2, kita entuk.
(x lan y minangka acara bebas)
Iki minangka persamaan Cauchy fungsional, bener kanggo kabeh p1 lan p2. Kanggo ngatasi persamaan fungsional iki, anggep yen
p1 = p2 = p,
iki menehi
Yen p1 = p2 lan p2 = p banjur
lsp. Ngluwihi proses iki nggunakake cara standar kanggo eksponensial, kanggo kabeh nomer rasional m / n ing ngisor iki bener
Saka kontinuitas pangukuran informasi, mula fungsi logaritma minangka solusi sing terus-terusan kanggo persamaan fungsional Cauchy.
Ing teori informasi, umume njupuk basis logaritma dadi 2, mula pilihan binar ngemot persis 1 bit informasi. Mulane, informasi diukur kanthi rumus
Ayo ngaso lan ngerti apa sing kedadeyan ing ndhuwur. Kaping pisanan, kita ora nemtokake konsep "informasi", kita mung nemtokake rumus kanggo ukuran kuantitatif.
Kapindho, ukuran iki tundhuk kahanan sing durung mesthi, lan sanajan cukup cocok kanggo mesin-contone, sistem telpon, radio, televisi, komputer, etc-ora nggambarake sikap manungsa normal marang informasi.
Dadi definisi informasi Shannon cocok kanggo mesin ing pirang-pirang kasus, nanging ora cocog karo pemahaman manungsa babagan tembung kasebut. Mulane "Teori Informasi" kudune diarani "Teori Komunikasi." Nanging, wis kasep kanggo ngganti definisi (sing menehi teori popularitas awal, lan isih nggawe wong mikir yen teori iki gegayutan karo "informasi"), supaya kita kudu manggon karo wong-wong mau, nanging ing wektu sing padha sampeyan kudu ngerti kanthi cetha sepira adohe definisi informasi Shannon saka makna sing umum digunakake. Informasi Shannon gegayutan karo bab sing beda banget, yaiku kahanan sing durung mesthi.
Mangkene sing kudu dipikirake nalika sampeyan ngusulake terminologi apa wae. Kepiye definisi sing diusulake, kayata definisi informasi Shannon, setuju karo ide asli sampeyan lan kepiye bedane? Meh ora ana istilah sing persis nggambarake visi sadurunge babagan konsep, nanging pungkasane, terminologi sing digunakake sing nggambarake makna konsep kasebut, mula nggawe formalisasi kanthi definisi sing jelas tansah ngenalake sawetara gangguan.
Coba sistem sing alfabet kasusun saka simbol q karo kemungkinan pi. Ing kasus iki jumlah rata-rata informasi ing sistem (nilai samesthine) padha karo:
Iki diarani entropi sistem kanthi distribusi probabilitas {pi}. Kita nggunakake istilah "entropi" amarga wangun matematika sing padha katon ing termodinamika lan mekanika statistik. Iki kok istilah "entropy" nggawe aura tartamtu wigati watara dhewe, kang wekasanipun ora sabdho. Bentuk notasi matematika sing padha ora ateges interpretasi simbol sing padha!
Entropi distribusi probabilitas nduweni peran utama ing teori pengkodean. Ketimpangan Gibbs kanggo rong distribusi probabilitas sing beda pi lan qi minangka salah sawijining konsekuensi penting saka teori iki. Dadi kita kudu mbuktekake
Bukti kasebut adhedhasar grafik sing jelas, Fig. 13.I, kang nuduhake yen
lan kesetaraan mung digayuh nalika x = 1. Ayo kita aplikasi ketimpangan kanggo saben istilah saka jumlah saka sisih kiwa:
Yen alfabet sistem komunikasi kasusun saka simbol q, banjur njupuk kemungkinan transmisi saben simbol qi = 1 / q lan ngganti q, kita entuk saka ketimpangan Gibbs.
Gambar 13.I
Iki tegese yen kemungkinan ngirim kabeh simbol q padha lan padha karo - 1 / q, banjur entropi maksimum witjaksono kanggo ln q, digunakake ketimpangan terus.
Ing cilik saka kode unik decodable, kita duwe ketimpangan Kraft
Saiki yen kita nemtokake pseudo-probabilitas
ngendi mesthi = 1, sing nderek saka ketimpangan Gibbs,
lan aplikasi aljabar sethithik (elinga yen K β€ 1, supaya kita bisa nyelehake istilah logaritma, lan bisa uga nguatake ketimpangan mengko), kita entuk
ngendi L iku dawa kode rata-rata.
Mangkono, entropi minangka wates minimal kanggo kode karakter-demi-simbol kanthi dawa tembung kode rata-rata L. Iki minangka teorema Shannon kanggo saluran bebas interferensi.
Cara kita duwe stream dawa n bit sing dienkode dadi siji pesen yaiku ekstensi n - dimensi saka kode siji-bit. Kita bakal nemtokake nilai n mengko. Coba pesen sing dumadi saka n-bit minangka titik ing spasi n-dimensi. Amarga kita duwe spasi n-dimensi - lan kanggo kesederhanaan, kita bakal nganggep yen saben pesen nduweni kemungkinan kedadeyan sing padha - ana pesen sing bisa M (M uga bakal ditetepake mengko), mula kemungkinan pesen sing dikirim yaiku
(pengirim) Jadwal 13.II
Sabanjure, nimbang gagasan kapasitas saluran. Tanpa nerangake rincian, kapasitas saluran ditetepake minangka jumlah maksimum informasi sing bisa dipercaya liwat saluran komunikasi, njupuk menyang akun nggunakake coding paling efisien. Ora ana argumentasi manawa luwih akeh informasi bisa ditularake liwat saluran komunikasi tinimbang kapasitase. Iki bisa dibuktekake kanggo saluran simetris binar (sing digunakake ing kasus kita). Kapasitas saluran, nalika ngirim bit, ditemtokake minangka
ngendi, minangka sadurunge, P punika kamungkinan saka kesalahan ing sembarang bit dikirim. Nalika ngirim n bit sawijining, kapasitas saluran diwenehi dening
Yen kita cedhak karo kapasitas saluran, mula kita kudu ngirim meh jumlah informasi iki kanggo saben simbol ai, i = 1, ..., M. Ngelingi yen kemungkinan kedadeyan saben simbol ai yaiku 1 / M, kita njaluk
nalika kita ngirim sembarang M padha kamungkinan pesen ai, kita duwe
Nalika n bit dikirim, kita ngarepake kesalahan nQ kedadeyan. Ing laku, kanggo pesen dumadi saka n-bit, kita bakal duwe kira-kira nQ kasalahan ing pesen ditampa. Kanggo n gedhe, variasi relatif (variasi = jembar distribusi, )
distribusi saka nomer kasalahan bakal dadi tambah panah minangka n mundhak.
Dadi, saka sisih pemancar, aku njupuk pesen ai kanggo ngirim lan nggambar bola ngubengi kanthi radius
kang rada gedhe dening jumlah witjaksono kanggo e2 saka samesthine nomer kasalahan Q, (Figure 13.II). Yen n cukup gedhe, banjur ana kamungkinan arbitrarily cilik saka titik pesen bj katon ing sisih panrima sing ngluwihi bal iki. Ayo sketsa kahanan kaya sing dakdeleng saka sudut pandang pemancar: kita duwe radius saka pesen sing dikirim menyang pesen sing ditampa bj kanthi kemungkinan kesalahan sing padha (utawa meh padha) karo distribusi normal, tekan maksimal. saka nQ. Kanggo sembarang e2 diwenehi, ana n dadi gedhe sing kamungkinan saka asil titik bj ing njaba sandi bal minangka cilik sing kaya.
Saiki ayo ndeleng kahanan sing padha saka sisih sampeyan (Gambar 13.III). Ing sisih panrima ana bola S(r) kanthi radius r sing padha ngubengi titik sing ditampa bj ing ruang dimensi n, mula yen pesen sing ditampa bj ana ing njero balku, mula pesen sing dikirim dening aku ana ing njero ruangan sampeyan. bal.
Kepiye carane kesalahan bisa kedadeyan? Kesalahan bisa kedadeyan ing kasus sing diterangake ing tabel ing ngisor iki:
Gambar 13.III
Ing kene kita bisa ndeleng manawa ing bal sing dibangun ing sekitar titik sing ditampa, paling ora ana siji titik liyane sing cocog karo pesen sing ora dikirim, banjur ana kesalahan nalika transmisi, amarga sampeyan ora bisa nemtokake manawa pesen kasebut dikirim. Pesen sing dikirim ora ana kesalahan mung yen titik sing cocog karo iku ana ing bal, lan ora ana titik liyane sing bisa ditindakake ing kode sing ana ing bidang sing padha.
Kita duwe persamaan matematika kanggo kemungkinan kesalahan Pe yen pesen ai dikirim
Kita bisa mbuwang faktor pisanan ing istilah kapindho, njupuk minangka 1. Mangkono kita njaluk ketimpangan
Iku ketok
mula
nglamar maneh menyang istilah pungkasan ing sisih tengen
Njupuk n cukup gedhe, istilah pisanan bisa dijupuk minangka cilik sing dikarepake, ngandika kurang saka sawetara nomer d. Mulane kita duwe
Saiki ayo kang katon ing carane kita bisa mbangun kode substitusi prasaja kanggo encode pesen M dumadi saka n bit. Ora ngerti kepiye carane nggawe kode (kode sing mbenerake kesalahan durung ditemokake), Shannon milih kode acak. Flip duwit receh kanggo saben n bit ing pesen lan mbaleni proses kanggo pesen M. In total, nM duwit receh flips kudu digawe, supaya bisa
kamus kode gadhah probabilitas padha Β½nM. Mesthi, proses acak nggawe codebook tegese ana kemungkinan duplikat, uga titik kode sing bakal cedhak lan mulane dadi sumber kesalahan sing bisa ditindakake. Siji kudu mbuktekaken yen iki ora kelakon karo kemungkinan luwih saka sembarang tingkat kesalahan milih cilik, banjur diwenehi n cukup gedhe.
Titik wigati iku Shannon rata-rata kabeh codebooks bisa kanggo nemokake kesalahan rata-rata! Kita bakal nggunakake simbol Av [.] kanggo ndudohke Nilai rata-rata liwat pesawat kabeh bisa codebooks acak. Rata-rata liwat konstanta d, mesthi menehi konstanta, amarga kanggo rata-rata saben istilah padha karo saben istilah liyane ing jumlah,
sing bisa ditambah (Mβ1 dadi M)
Kanggo pesen apa wae, nalika rata-rata ing kabeh buku kode, enkoding mlaku liwat kabeh nilai sing bisa ditindakake, mula kemungkinan rata-rata titik kasebut ana ing bal yaiku rasio volume bola menyang volume total ruang. Volume bola yaiku
ngendi s = Q + e2 <1/2 lan ns kudu integer.
Istilah pungkasan ing sisih tengen paling gedhe ing jumlah iki. Pisanan, ayo ngira regane nggunakake rumus Stirling kanggo faktorial. Kita banjur bakal katon ing koefisien mudun saka istilah ing ngarepe, Wigati sing koefisien iki mundhak nalika kita pindhah ngiwa, lan supaya kita bisa: (1) matesi Nilai saka jumlah kanggo jumlah saka kemajuan geometris karo koefisien dhisikan iki, (2) nggedhekake kemajuan geometris saka ns istilah kanggo nomer tanpa wates saka istilah, (3) ngetung jumlah saka kemajuan geometris tanpa wates (aljabar standar, boten pinunjul) lan pungkasanipun entuk nilai watesan (kanggo cukup gedhe). n):
Wigati carane entropi H(s) muncul ing identitas binomial. Elinga yen ekspansi seri Taylor H(s)=H(Q+e2) menehi prakiraan sing dipikolehi mung njupuk turunan pisanan lan ora nggatekake kabeh liyane. Saiki ayo nggawe ekspresi pungkasan:
ngendi
Kita mung kudu milih e2 supaya e3 < e1, banjur istilah pungkasan bakal arbitrarily cilik, anggere n cukup gedhe. Akibate, kesalahan PE rata-rata bisa dipikolehi sethithik kaya sing dikarepake kanthi kapasitas saluran sing cedhak karo C.
Yen rata-rata kabeh kode nduweni kesalahan sing cukup cilik, mula paling ora siji kode kudu cocog, mula paling ora ana siji sistem kode sing cocog. Iki minangka asil penting sing diduweni dening Shannon - "teorema Shannon kanggo saluran sing rame", sanajan kudu dicathet yen dheweke mbuktekake iki kanggo kasus sing luwih umum tinimbang saluran simetris binar sing prasaja sing digunakake. Kanggo kasus umum, pitungan matematika luwih rumit, nanging gagasan ora beda-beda, mula asring banget, nggunakake conto kasus tartamtu, sampeyan bisa mbukak makna teorema sing bener.
Ayo dikritik asile. Kita wis bola-bali mbaleni: "Kanggo n cukup gedhe." Nanging carane gedhe n? Banget, gedhe banget yen sampeyan pengin banget cedhak karo kapasitas saluran lan manawa transfer data sing bener! Dadi gedhe, nyatane, sampeyan kudu ngenteni suwe banget kanggo nglumpukake pesen sing cukup bit kanggo ngodhe mengko. Ing kasus iki, ukuran kamus kode acak bakal mung ageng (sawise kabeh, kamus kuwi ora bisa diwakili ing wangun luwih cendhek saka dhaftar lengkap kabeh bit Mn, senadyan kasunyatan sing n lan M gedhe banget)!
Kode sing mbenerake kesalahan supaya ora ngenteni pesen sing dawa banget lan banjur ngodhe lan dekoding liwat buku kode sing gedhe banget amarga padha ngindhari buku kode dhewe lan nggunakake komputasi biasa. Ing teori prasaja, kode kasebut cenderung ilang kemampuan kanggo nyedhaki kapasitas saluran lan isih njaga tingkat kesalahan sing cukup murah, nanging nalika kode kasebut mbenerake kesalahan sing akeh, dheweke nindakake kanthi apik. Ing tembung liyane, yen sampeyan nyedhiyakake sawetara kapasitas saluran kanggo koreksi kesalahan, sampeyan kudu nggunakake kemampuan koreksi kesalahan paling akeh wektu, yaiku, akeh kesalahan kudu didandani ing saben pesen sing dikirim, yen ora, sampeyan bakal mbuang kapasitas iki.
Ayo bali menyang spasi n-dimensi sing digunakake ing bukti ing ndhuwur. Nalika ngrembug babagan iki, kita nuduhake manawa meh kabeh volume bola dikonsentrasi ing cedhak permukaan njaba - mula, meh mesthi sinyal sing dikirim bakal ana ing cedhak permukaan bal sing dibangun ing sekitar sinyal sing ditampa, sanajan kanthi relatif. radius cilik saka bal kuwi. Mula, ora nggumunake yen sinyal sing ditampa, sawise mbenerake kesalahan sing akeh banget, nQ, dadi cedhak karo sinyal tanpa kesalahan. Kapasitas link sing kita rembugan sadurunge minangka kunci kanggo mangerteni fenomena iki. Elinga yen bal sing padha dibangun kanggo kesalahan-mbenerake kode Hamming ora tumpang tindih. Jumlah gedhe saka dimensi meh ortogonal ing spasi n-dimensi nuduhake apa kita bisa pas M bal ing papan karo sethitik tumpang tindih. Yen kita ngidini tumpang tindih cilik, arbitrarily cilik, sing bisa nyebabake mung sawetara kesalahan sajrone dekoding, kita bisa entuk papan panggonan sing padhet ing papan. Hamming dijamin tingkat tartamtu saka koreksi kesalahan, Shannon - kemungkinan kurang saka kesalahan, nanging ing wektu sing padha njaga throughput nyata arbitrarily cedhak kapasitas saluran komunikasi, kang kode Hamming ora bisa nindakake.
Teori informasi ora ngandhani carane ngrancang sistem sing efisien, nanging nuduhake cara menyang sistem komunikasi sing efisien. Iki minangka alat sing migunani kanggo mbangun sistem komunikasi mesin-kanggo-mesin, nanging, kaya sing kacathet sadurunge, ora ana hubungane karo cara komunikasi manungsa. Tingkat warisan biologis kaya sistem komunikasi teknis ora dingerteni, mula saiki durung jelas kepiye teori informasi ditrapake kanggo gen. Kita ora duwe pilihan nanging nyoba, lan yen sukses nuduhake sifat kaya mesin saka fenomena iki, mula kegagalan bakal nuduhake aspek penting liyane babagan sifat informasi.
Ayo dadi ora digress banget. Kita wis weruh manawa kabeh definisi asli, kanthi luwih gedhe utawa luwih cilik, kudu nyatakake inti saka kapercayan asli kita, nanging ditondoi dening sawetara tingkat distorsi lan mulane ora bisa ditrapake. Secara tradisional ditampa manawa, pungkasane, definisi sing kita gunakake bener-bener nemtokake inti; nanging, iki mung ngandhani carane proses iku lan ing cara ngirim sembarang makna kanggo kita. Pendekatan postulasi, sing disenengi banget ing kalangan matematika, akeh sing dikarepake ing praktik.
Saiki kita bakal ndeleng conto tes IQ sing definisi kasebut bunder kaya sing dikarepake lan, minangka asil, mblusukake. Tes digawe sing mesthine kanggo ngukur kecerdasan. Banjur direvisi supaya bisa konsisten, banjur diterbitake lan, kanthi cara sing prasaja, dikalibrasi supaya "intelijen" sing diukur dadi disebarake kanthi normal (ing kurva kalibrasi, mesthi). Kabeh definisi kudu dipriksa maneh, ora mung nalika pisanan diusulake, nanging uga mengko, nalika digunakake ing kesimpulan sing digambar. Sepira wates definisi sing cocog kanggo masalah sing ditanggulangi? Sepira kerepe definisi sing diwenehake ing siji setelan bisa ditrapake ing setelan sing beda-beda? Iki kedadeyan cukup asring! Ing kamanungsan, sing mesthi bakal ditemoni ing urip sampeyan, iki kedadeyan luwih asring.
Crita Eddington sing misuwur nyritakake wong-wong sing mancing ing segara nganggo jala. Sawise nyinaoni ukuran iwak sing dijupuk, dheweke nemtokake ukuran minimal iwak sing ditemokake ing segara! Kesimpulan kasebut didorong dening instrumen sing digunakake, dudu kasunyatan.
Terus ...
Sapa sing pengin mbantu terjemahan, tata letak lan publikasi buku - tulis ing pesen utawa email pribadi [email dilindhungi]