多兵種配合,火力全開——awk和python的組合在數據處理中的用法.
假如我手上有堆html,我們要將其挑出來,傳統的方法。或用find,或用grep,出來。其實awk可以輕鬆實現。
來個開胃菜
awk用法找到一個目錄,前面知道文件夾的內容,用ls -l處理。開頭是d。

開幹
我們找到html結尾的文件這樣寫

如果我們要加入指定大小的條件,我們這樣寫。類同find中 -name "*.html" -a -size +100k
不一樣的是find遞歸,而awk是當前文件夾。

找到要用python處理的文件,用bs4處理,得到soup。
假如c=soup.find_all(name='script')
。我們要找的東西在倒數第三個。
用re處理,記得要把c[-3]字符串化。
任找一個論證,發現id正確。

寫個空列表new,再用for處理f,給new進行append。
把標識符new賦值

因為中文有,,就用in做條件
把這個內容寫入一文本,用open().write或cp到vi等。

給數字加個假頭假腿,並寫入ncsnpy.csv

excell打開

美化後

我們得到某閱讀網站的目標信息,他有目標網站和簡介兩部分。這樣再看書為方便多了。
此文章僅做技術分享之用,不要用來竊取他人成果。如有濫用,和本人無關。如觸碰了紅線,後果自負。