डेटा एनालाईसिस गर्दा सहि प्लट छनौट गर्ने तरिका
Model | Launch Year | Engine Type | Engine Capacity (cc) | Price (INR) | Sales (Units) | City Mileage (km/l) | Top Speed (km/h) |
---|---|---|---|---|---|---|---|
Bullet 350 | 2000 | Single-Cylinder | 346 | 150,000 | 10,000 | 35 | 120 |
Classic 350 | 2005 | Single-Cylinder | 349 | 200,000 | 30,000 | 40 | 130 |
Meteor 350 | 2020 | Single-Cylinder | 349 | 230,000 | 25,000 | 35 | 140 |
Himalayan | 2016 | Single-Cylinder | 411 | 250,000 | 15,000 | 30 | 140 |
Interceptor 650 | 2018 | Parallel Twin | 648 | 350,000 | 12,000 | 25 | 160 |
Continental GT 650 | 2018 | Parallel Twin | 648 | 350,000 | 8,000 | 20 | 160 |
ओहो , हामी यसलाई पाईथनमा ठ्याक्क यस्तै डेटा सेट बनाएर राखौ अनि त्यसलाई आवश्यकता अनुसार बिभिन्न प्लट बनाम्ला
import pandas as pd
# Dataset: Royal Enfield Bike Sales Data
data = {
'Model': ['Bullet 350', 'Classic 350', 'Meteor 350', 'Himalayan', 'Interceptor 650', 'Continental GT 650'],
'Launch Year': [2000, 2005, 2020, 2016, 2018, 2018],
'Engine Type': ['Single-Cylinder', 'Single-Cylinder', 'Single-Cylinder', 'Single-Cylinder', 'Parallel Twin', 'Parallel Twin'],
'Engine Capacity (cc)': [346, 349, 349, 411, 648, 648],
'Price (INR)': [150000, 200000, 230000, 250000, 350000, 350000],
'Sales (Units)': [10000, 30000, 25000, 15000, 12000, 8000],
'City Mileage (km/l)': [35, 40, 35, 30, 25, 20],
'Top Speed (km/h)': [120, 130, 140, 140, 160, 160]
}
# Convert to DataFrame
df = pd.DataFrame(data)
# Show the dataset
df
यो डेटासेटलाई हामी विभिन्न तरिकामा प्रस्तुत गर्न सक्छौं। हामीले कुन डेटा ग्राफिकल रूपमा प्रस्तुत गर्न चाहन्छौं र त्यसका आधारमा कुन चार्ट प्रयोग गर्ने भन्ने कुरा चयन गर्न सजिलो हुन्छ। उदाहरणका लागि, यदि दुई वटा न्यूमेरिक भ्यालु भएका भेरिएबलहरूलाई तुलना गरेर ग्राफिकल रूपमा प्रस्तुत गर्न चाहन्छौं भने, न्यूमेरिक - न्यूमेरिक डेटा प्लटको सिद्धान्त अनुसार ग्राफ तयार गर्दा त्यसको प्रस्तुति उपयोगी र सबैले बुझ्न सक्ने हुन्छ।
Numeric vs Numeric
जस्तै, वर्ष अनुसार पास हुने विद्यार्थीहरूको मात्राबारे कुरा गर्दा, सबैभन्दा पहिले विद्यालयको प्रकार नछुटाई पास हुने विद्यार्थीहरूको जम्मा संख्या निकाल्नुपर्छ। त्यसपछि यसलाई विभिन्न चार्टहरूमा प्रस्तुत गर्न सकिन्छ:
Scatter Plot 📈 → सम्बन्ध छ कि छैन हेर्न (जस्तै, वर्ष र पास हुने विद्यार्थीहरूको संख्या = दुवै न्युमेरिक भ्यालु)
px.scatter(data, x="Year", y="Pass Percentage (%)", title="Relation Between Year and Pass Percentage")
Line Plot 📉 → वर्ष अनुसार पास हुने विद्यार्थीहरूको संख्या
px.line(data, x="Year", y="Pass Percentage (%)", title="Relation Between Year and Pass Percentage")
Regression Plot 📏 → ट्रेन्ड हेर्न (जस्तै, पछिल्ला वर्षहरूमा पास हुने विद्यार्थीहरूको प्रतिशत)
px.scatter(data, x="Year", y="Total Pass Count", title="Relation Between Year and Pass Percentage", trendline="ols")
माथीको रिग्रेशन प्लट याद गर्नु भयो । यसमा दुबै न्युेरिक भ्यालु हुन जरुरी भएको Total Pass (%) को सट्टामा Total Pass Count लिएको छ । यसरी, यी चार्टहरूको प्रयोग गरेर हामी सजिलै ग्राफ तयार गर्न सक्छौं।
Numeric vs Categorical
त्यस्तै, यदि एउटा न्युमेरिक भ्यालु र एउटा क्याटेगोरीकल भ्यालु लिएर प्लट निर्माण गर्नु पर्छ भने, न्युमेरिक - क्याटेगोरीकल सिद्धान्त अनुसार ग्राफ तयार गर्दा त्यसको प्रस्तुति र उपयोगिता सबैले बुझ्न सक्ने हुन्छ। जस्तै, वर्ष अनुसार पास हुने विद्यार्थीहरूको मात्र कुरा गर्दा, सबैभन्दा पहिले विद्यालयको प्रकार नछुटाई पास हुने विद्यार्थीहरूको संख्या निकाल्नु पर्छ। त्यसपछि यसलाई विभिन्न चार्टहरूमा प्रस्तुत गर्न सकिन्छ:
- Bar Chart (ठाडो/तेर्सो बार ग्राफ) 📊 → वर्ष अनुसार पास हुने विद्यार्थीहरूको संख्या
- Box Plot (बाकस ग्राफ) 📦 → डेटा फैलावट (Distribution) र आउटलाइअर (Outliers) हेर्न। माथिको उदाहरणमा, वर्ष अनुसार पास हुने विद्यार्थीहरूको संख्या हेर्न सकिन्छ।
- Violin Plot 🎻 → वर्ष अनुसार पास हुने विद्यार्थीहरूको प्रतिशतको वितरण। जस्तै: २०१८ देखि २०२२ सम्मको विद्यार्थीहरूको पास प्रतिशतको वितरण। Violin Plot ले वितरणको आकार र घनत्व राम्रोसँग देखाउँछ, जसले स्पष्ट रूपमा डेटा को फैलावट र मुख्य केन्द्र बिन्दु देखाउँछ।
Categorical vs Categorical
यसै गरी दुई वटा क्याटेगोरिकल डेटा बिचका तुलनाहरू गर्न क्याटेगोरिकल - क्याटेगोरिकल सिद्धान्त अनुसार ग्राफ तयार गर्दा यसको प्रस्तुति र उपयोगिता सबैले बुझ्न सक्ने हुन्छ। जस्तो, विद्यालयको वर्ग अनुसार पास हुने छात्र/छात्राको कुरा गर्दा, सबैभन्दा पहिले वर्ष अनुसार
- Grouped Bar Chart (समूहिक बार ग्राफ) 🏗 → यसले वर्ष र लिंग अनुसार पास विद्यार्थीहरूको संख्या तुलनात्मक रूपले देखाउँछ। यसमा प्रत्येक वर्षको लागि छात्र र छात्रा बीचको पास संख्याको तुलना गर्न सकिन्छ।
- Stacked Bar Chart (थुप्रिएको बार ग्राफ) 📊 → यसले प्रत्येक वर्षमा सार्वजनिक, निजी, र मिशनरी विद्यालयका विद्यार्थिहरूको पास संख्या देखाउँछ। यसले क्याटेगोरिकल प्रकारहरूको वितरण देखाउँछ र वर्ष अनुसार तिनीहरूको योगदान बुझ्न मद्दत पुर्याउँछ।