資源簡介
現(xiàn)有某地區(qū)出租車 GPS 定位數據 taxi.csv
數據一共分為 4 列,每一列含義如下表所示:
編號(id) 緯度(lat) 經度(lon) 時間戳(time)
根據上述條件,結合課堂上學習的“DataFrame的常用操作”相關知識,編寫代碼實現(xiàn)如下要求:
1、查詢編號為 5 的出租車的 GPS 數據的前 10 行。
2、統(tǒng)計出租車的總數有多少。
分別統(tǒng)計每輛出租車的 GPS 點記錄有多少條。

代碼片段和文件信息
from?pyspark.shell?import?sc
from?pyspark.sql.types?import?*
#
rdd?=sc.textFile(“xxxx/taxi.csv“)
rdd1?=?rdd.map(lambda?line:line.split(““)).map(lambda?x:tuple(x))
schema?=?StructType([StructField(“id“StringType()True)StructField(“l(fā)at“StringType()True)StructField(“l(fā)on“StringType()True)StructField(“time“StringType()True)])
df?=?rdd1.toDF(schema)
#?df.filter(“id==5“).show(10)
df=?df.withColumn(“id“?df[“id“].cast(IntegerType()))
df1?=df.select(“id“).distinct().count()
#?print(df1)
df2=df.groupBy(“id“).count()
df3?=?df2.orderBy(“id“)
df3.show(df1)
#?df.show()
?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件????26476814??2019-05-15?02:46??taxi.csv
?????文件?????????589??2019-05-16?00:54??taxi.py
評論
共有 條評論