பல்வேறு பயனர் தரவுத்தள கசிவுகளின் விளைவாக பெறப்பட்ட ஒரு பில்லியன் கணக்குகளின் பகுப்பாய்வு

வெளியிடப்பட்டது அங்கீகார அளவுருக்கள் கொண்ட பல்வேறு தரவுத்தள கசிவுகளின் விளைவாக பெறப்பட்ட பில்லியன் கணக்குகளின் தொகுப்பின் பகுப்பாய்வு அடிப்படையில் உருவாக்கப்பட்ட புள்ளிவிவரங்கள். மேலும் தயார் வழக்கமான கடவுச்சொற்களின் பயன்பாட்டின் அதிர்வெண் மற்றும் தரவுகளுடன் மாதிரிகள் பட்டியல்கள் 1 ஆயிரம், 10 ஆயிரம், 100 ஆயிரம், 1 மில்லியன் மற்றும் 10 மில்லியன் பிரபலமான கடவுச்சொற்களில் இருந்து, கடவுச்சொல் ஹாஷ்களின் தேர்வை விரைவுபடுத்த பயன்படுத்தலாம்.

சில பொதுமைப்படுத்தல்கள் மற்றும் கண்டுபிடிப்புகள்:

  • இதன் விளைவாக சேகரிக்கப்பட்ட ஒரு பில்லியன் பதிவுகளில், 257 மில்லியன் சிதைந்த தரவு (தவறான வடிவத்தில் குழப்பமான தரவு) அல்லது சோதனை கணக்குகள் என நிராகரிக்கப்பட்டது. அனைத்து வடிகட்டலுக்குப் பிறகு, ஒரு பில்லியன் பதிவுகளிலிருந்து 169 மில்லியன் கடவுச்சொற்கள் மற்றும் 293 மில்லியன் உள்நுழைவுகள் அடையாளம் காணப்பட்டன.
  • மிகவும் பிரபலமான கடவுச்சொல் "123456" சுமார் 7 மில்லியன் முறை பயன்படுத்தப்படுகிறது (எல்லா கடவுச்சொற்களிலும் 0.722%). மேலும் குறிப்பிடத்தக்க பின்னடைவுடன் பின்பற்றவும் கடவுச்சொற்கள் 123456789, கடவுச்சொல், க்வெர்டி, 12345678.
  • ஆயிரம் பிரபலமான கடவுச்சொற்களின் பங்கு அனைத்து கடவுச்சொற்களிலும் 6.607%, மில்லியன் பிரபலமான கடவுச்சொற்களின் பங்கு 36.28% மற்றும் 10 மில்லியனின் பங்கு 54% ஆகும்.
  • சராசரி கடவுச்சொல் அளவு 9.4822 எழுத்துகள்.
  • 12.04% கடவுச்சொற்களில் சிறப்பு எழுத்துகள் உள்ளன.
  • 28.79% கடவுச்சொற்கள் எழுத்துக்களை மட்டுமே கொண்டிருக்கின்றன.
  • 26.16% கடவுச்சொற்களில் சிறிய எழுத்துக்கள் மட்டுமே உள்ளன.
  • 13.37% கடவுச்சொற்கள் எண்களை மட்டுமே கொண்டிருக்கின்றன.
  • 34.41% கடவுச்சொற்கள் எண்களுடன் முடிவடைகின்றன, ஆனால் அனைத்து கடவுச்சொற்களிலும் 4.522% மட்டுமே எண்ணுடன் தொடங்கும்.
  • 8.83% கடவுச்சொற்கள் மட்டுமே தனிப்பட்டவை, மீதமுள்ளவை இரண்டு அல்லது அதற்கு மேற்பட்ட முறை நிகழ்கின்றன. தனிப்பட்ட கடவுச்சொல்லின் சராசரி நீளம் 9.7965 எழுத்துகள். இந்த கடவுச்சொற்களில் சில மட்டுமே குழப்பமான எழுத்துகளின் தொகுப்பாகும், அர்த்தமற்றவை, மேலும் 7.082% மட்டுமே சிறப்பு எழுத்துக்களை உள்ளடக்கியது. தனிப்பட்ட கடவுச்சொற்களில் 20.02% எழுத்துக்கள் மட்டுமே உள்ளன மற்றும் 15.02% சிறிய எழுத்துக்கள் மட்டுமே, சராசரி நீளம் 9.36 எழுத்துக்கள்.
  • சரி செய்யப்பட்டது набор உயர்தர, உயர்-என்ட்ரோபி கடவுச்சொற்கள் பாணியில் ஒத்தவை (10 எழுத்துகள், எண்களின் சீரற்ற சேர்க்கை, பெரிய மற்றும் சிறிய எழுத்துக்கள், சிறப்பு எழுத்துகள் இல்லை, தொடக்கத்திலும் முடிவிலும் உள்ள பெரிய எழுத்துக்கள்) மற்றும் மீண்டும் பயன்படுத்தப்பட்டது. மறுபயன்பாட்டு விகிதம் மிகவும் குறைவாக இருந்தது (இந்த கடவுச்சொற்களில் சில 10 முறை மீண்டும் மீண்டும் செய்யப்படுகின்றன), ஆனால் இந்த நிலை கடவுச்சொற்களுக்கு எதிர்பார்த்ததை விட இன்னும் அதிகமாக உள்ளது.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்