Semalt: HTML ရေးသားခြင်းလမ်းညွှန် - ထိပ်ဆုံးအချက်များ

ဝဘ်ဆိုက်များသည်အများအားဖြင့်ဖွဲ့စည်းပုံ (သို့) HTML ပုံစံများဖြစ်သည်။ စာမျက်နှာတိုင်းတွင်ပါ ၀ င်သည့်အကြောင်းအရာပေါ် မူတည်၍ ၎င်း၏ထူးခြားသောပုံစံဖြင့်ဖွဲ့စည်းထားသည်။ တစ်စုံတစ် ဦး ကဝဘ်သတင်းအချက်အလက်များကိုထုတ်ယူလိုပါကလူတစ် ဦး ချင်းစီ၏ဒေတာကိုစနစ်တကျဖွဲ့စည်းထားသောနည်းစနစ်ဖြင့်ရယူရန်ဆန္ဒဖြစ်သည်။ ၎င်းသည်စာရွက်စာတမ်းကိုမျှဝေခြင်းမပြုမီပြန်လည်သုံးသပ်ရန်၊ ခွဲခြမ်းစိတ်ဖြာရန်နှင့်စုစည်းရန်လိုအပ်သည့်အချိန်ကိုသက်သာစေသည်။ လူအများအပြားမှအချက်အလက်အမြောက်အများကိုထုတ်ယူခြင်းကိုတားဆီးရန်ဝက်ဘ်ဆိုက်အများစုကထိုရွေးချယ်စရာကိုမပေးသောကြောင့်ဖွဲ့စည်းပုံပုံစံကိုရယူရန်မှာမလွယ်ကူပါ။ သို့သော်အချို့သော ၀ က်ဘ်ဆိုက်များသည်လူများအားလျင်မြန်လွယ်ကူသောသတင်းအချက်အလက်များထုတ်ယူခြင်းကိုပေးသော APIs များကိုပေးသည်။

ထိုသို့သောအဖြစ်အပျက်များတွင် scraping ဟုလူသိများသော software programming ၏အကူအညီကိုသုံးရန်သင်မှရွေးချယ်စရာမရှိပါ။ ၎င်းသည်ချဉ်းကပ်နည်းဖြစ်ပြီးကွန်ပျူတာပရိုဂရမ်ကိုအသုံးပြုသူများသည်သတင်းအချက်အလက်များကိုအသုံးဝင်သောပုံစံဖြင့်စုဆောင်းရန်နှင့်အချက်အလက်ဖွဲ့စည်းပုံကိုထိန်းသိမ်းရန်ကူညီသည်။

Lxml နှင့် Request

၎င်းသည် XML နှင့် HTML ကိုမြန်မြန်ဆန်ဆန်ခွဲခြမ်းစိတ်ဖြာရန်နှင့်အကဲဖြတ်ရာတွင်အထောက်အကူဖြစ်စေသည့်အပြင်အချိန်ကုန်သက်သာစေသည်။ ခွဲခြမ်းစိတ်ဖြာခြင်းလုပ်ငန်းစဉ်၌ရှုပ်ထွေးသော tags များကိုကိုင်တွယ်ရာတွင်အထောက်အကူပြုသည်။ ဤလုပ်ထုံးလုပ်နည်းတွင်သင်သည်အမြန်၊ ခိုင်မာပြီးအလွယ်တကူရရှိနိုင်သောကြောင့် inbuilt urllib2 ထက် Lxml တောင်းဆိုမှုများကိုအသုံးပြုသည်။ ၎င်းကို pip install Lxml နှင့် pip install တောင်းဆိုမှုများကိုသုံးခြင်းဖြင့်လွယ်ကူစွာ install လုပ်နိုင်သည်။

HTML ခြစ်ခြင်းအတွက်ဤအဆင့်များကိုလိုက်နာပါ

သွင်းကုန်များဖြင့်စတင်ပါ။ ဤနေရာတွင်သင်သည် HTML ကို Lxml မှတင်သွင်းပါ၊ ထို့နောက်တောင်းဆိုမှုကိုတင်ပါ။ Request ကိုသုံးပါ၊ ထို့နောက်သင် extract လုပ်ချင်သော data များပါ ၀ င်သော web page ကို၎င်း၊ HTML module မှခွဲခြမ်းစိတ်ဖြာပါ၊ ထို့နောက် parsed data ကိုသစ်ပင်၌သိမ်းဆည်းပါ။

HTML ကို input များ bytes ဖြင့်ရရှိရန်မျှော်လင့်သောကြောင့်သင်သည် text ထက် page content ကိုသုံးရန်လိုအပ်လိမ့်မည်။ သင်ခွဲခြမ်းစိတ်ဖြာထားသောဒေတာများကိုသိမ်းဆည်းထားသောသစ်ပင်သည်သစ်သားဖွဲ့စည်းပုံတွင် HTML မှတ်တမ်းပါရှိသည်။ သစ်ပင်ဖွဲ့စည်းပုံကို XPath နှင့် CSSelect အမျိုးမျိုးဖြင့်သင်သွားနိုင်သည်။

XPath သည်သတင်းအချက်အလက်များကိုရယူရန်သို့မဟုတ်၎င်းကို HTML သို့မဟုတ် XML ကဲ့သို့သောဖွဲ့စည်းထားသောပုံစံဖြင့်ရယူရန်ကူညီသည်။ XPath element တွေကိုသင်ရနိုင်တဲ့နည်းလမ်းများစွာရှိပါတယ်။ ၎င်းတို့တွင် Firebug အတွက် Firebug သို့မဟုတ် Chrome စစ်ဆေးရေးတို့ပါ ၀ င်သည်။ Chrome ကိုအသုံးပြုသောအခါအချက်အလက်စစ်ဆေးခြင်းသည်လွယ်ကူသည်။ အဘယ်ကြောင့်ဆိုသော်စစ်ဆေးရန်လိုအပ်သော“ ညာဘက်” ကိုနှိပ်ရုံသာဖြစ်သည်၊ 'Inspect element' ကိုရွေးပါ။ ပေးထားသောကုဒ်ကိုမီးမောင်းထိုးပြပြီး XPath ကိုညာဖက်နှိပ်ပြီးကူးယူပါ။ ဤလုပ်ငန်းစဉ်သည်သင်၏စာမျက်နှာတွင်မည်သည့်အရာပါ ၀ င်သည်ကိုသိရှိရန်သင့်အားကူညီလိမ့်မည်။ ၎င်းမှမှန်ကန်သော XPath query ကိုဖန်တီးရန်နှင့် Lxml XPath ကိုမှန်ကန်စွာလျှောက်ထားရန်လွယ်ကူသည်။

ဤအဆင့်များသို့သွားခြင်းဖြင့် Lxml နှင့် Requests ကို အသုံးပြု၍ web တစ်ခုမှသင်ရယူလိုသောအချက်အလက်အားလုံးကိုဖျက်ပစ်ရန်သေချာသည်။ သင်စာရင်းနှစ်ခုကိုမှတ်ဉာဏ်တွင်သိမ်းဆည်းထားသောသတင်းအချက်အလက်ကိုသိမ်းထားလိမ့်မည်။ Python လိုပရိုဂရမ်းမင်းဘာသာစကားကိုသုံးပြီးခွဲခြမ်းစိတ်ဖြာနိုင်တယ်၊ သိမ်းနိုင်တယ်၊ မျှဝေနိုင်တယ်။ ထို့အပြင်သတင်းအချက်အလက်အချို့ကို၎င်းကိုမဝေမျှမီသင်ပြန်လည်ရေးရန်သို့မဟုတ်တည်းဖြတ်ရန်လိုကောင်းလိုပေမည်။

send email