புரோஹோஸ்டர் > Блог > இணைய செய்தி > பல்வேறு பயனர் தரவுத்தள கசிவுகளின் விளைவாக பெறப்பட்ட ஒரு பில்லியன் கணக்குகளின் பகுப்பாய்வு
பல்வேறு பயனர் தரவுத்தள கசிவுகளின் விளைவாக பெறப்பட்ட ஒரு பில்லியன் கணக்குகளின் பகுப்பாய்வு
வெளியிடப்பட்டது அங்கீகார அளவுருக்கள் கொண்ட பல்வேறு தரவுத்தள கசிவுகளின் விளைவாக பெறப்பட்ட பில்லியன் கணக்குகளின் தொகுப்பின் பகுப்பாய்வு அடிப்படையில் உருவாக்கப்பட்ட புள்ளிவிவரங்கள். மேலும் தயார் வழக்கமான கடவுச்சொற்களின் பயன்பாட்டின் அதிர்வெண் மற்றும் தரவுகளுடன் மாதிரிகள் பட்டியல்கள் 1 ஆயிரம், 10 ஆயிரம், 100 ஆயிரம், 1 மில்லியன் மற்றும் 10 மில்லியன் பிரபலமான கடவுச்சொற்களில் இருந்து, கடவுச்சொல் ஹாஷ்களின் தேர்வை விரைவுபடுத்த பயன்படுத்தலாம்.
சில பொதுமைப்படுத்தல்கள் மற்றும் கண்டுபிடிப்புகள்:
இதன் விளைவாக சேகரிக்கப்பட்ட ஒரு பில்லியன் பதிவுகளில், 257 மில்லியன் சிதைந்த தரவு (தவறான வடிவத்தில் குழப்பமான தரவு) அல்லது சோதனை கணக்குகள் என நிராகரிக்கப்பட்டது. அனைத்து வடிகட்டலுக்குப் பிறகு, ஒரு பில்லியன் பதிவுகளிலிருந்து 169 மில்லியன் கடவுச்சொற்கள் மற்றும் 293 மில்லியன் உள்நுழைவுகள் அடையாளம் காணப்பட்டன.
மிகவும் பிரபலமான கடவுச்சொல் "123456" சுமார் 7 மில்லியன் முறை பயன்படுத்தப்படுகிறது (எல்லா கடவுச்சொற்களிலும் 0.722%). மேலும் குறிப்பிடத்தக்க பின்னடைவுடன் பின்பற்றவும் கடவுச்சொற்கள் 123456789, கடவுச்சொல், க்வெர்டி, 12345678.
ஆயிரம் பிரபலமான கடவுச்சொற்களின் பங்கு அனைத்து கடவுச்சொற்களிலும் 6.607%, மில்லியன் பிரபலமான கடவுச்சொற்களின் பங்கு 36.28% மற்றும் 10 மில்லியனின் பங்கு 54% ஆகும்.
சராசரி கடவுச்சொல் அளவு 9.4822 எழுத்துகள்.
12.04% கடவுச்சொற்களில் சிறப்பு எழுத்துகள் உள்ளன.
28.79% கடவுச்சொற்கள் எழுத்துக்களை மட்டுமே கொண்டிருக்கின்றன.
26.16% கடவுச்சொற்களில் சிறிய எழுத்துக்கள் மட்டுமே உள்ளன.
13.37% கடவுச்சொற்கள் எண்களை மட்டுமே கொண்டிருக்கின்றன.
34.41% கடவுச்சொற்கள் எண்களுடன் முடிவடைகின்றன, ஆனால் அனைத்து கடவுச்சொற்களிலும் 4.522% மட்டுமே எண்ணுடன் தொடங்கும்.
8.83% கடவுச்சொற்கள் மட்டுமே தனிப்பட்டவை, மீதமுள்ளவை இரண்டு அல்லது அதற்கு மேற்பட்ட முறை நிகழ்கின்றன. தனிப்பட்ட கடவுச்சொல்லின் சராசரி நீளம் 9.7965 எழுத்துகள். இந்த கடவுச்சொற்களில் சில மட்டுமே குழப்பமான எழுத்துகளின் தொகுப்பாகும், அர்த்தமற்றவை, மேலும் 7.082% மட்டுமே சிறப்பு எழுத்துக்களை உள்ளடக்கியது. தனிப்பட்ட கடவுச்சொற்களில் 20.02% எழுத்துக்கள் மட்டுமே உள்ளன மற்றும் 15.02% சிறிய எழுத்துக்கள் மட்டுமே, சராசரி நீளம் 9.36 எழுத்துக்கள்.
சரி செய்யப்பட்டது набор உயர்தர, உயர்-என்ட்ரோபி கடவுச்சொற்கள் பாணியில் ஒத்தவை (10 எழுத்துகள், எண்களின் சீரற்ற சேர்க்கை, பெரிய மற்றும் சிறிய எழுத்துக்கள், சிறப்பு எழுத்துகள் இல்லை, தொடக்கத்திலும் முடிவிலும் உள்ள பெரிய எழுத்துக்கள்) மற்றும் மீண்டும் பயன்படுத்தப்பட்டது. மறுபயன்பாட்டு விகிதம் மிகவும் குறைவாக இருந்தது (இந்த கடவுச்சொற்களில் சில 10 முறை மீண்டும் மீண்டும் செய்யப்படுகின்றன), ஆனால் இந்த நிலை கடவுச்சொற்களுக்கு எதிர்பார்த்ததை விட இன்னும் அதிகமாக உள்ளது.